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数据 科学 是 个 激动 人 心 却 又 非常 年 轻 的 领域 。 不 幸 的 是 ， 许 多 个 人 和 公司 ， 总 是 认为 需要 
利用 新 技术 才能 解决 数据 科学 提出 的 问题 。 实 际 上 ， 正 如 本 书 所 揭示 的 ， 许 多 问题 使 用 命 
令 行 就 能 解决 ， 而 且 有 时 候 效率 要 高 得 多 。 


大 约 5 年 前 ， 在 攻读 博士 学 位 期 间 ， 我 逐步 从 使 用 微软 Windows 转 为 使 用 GUN/Linux。 
刚 开 始 我 有 点 齐 小 慎 微 ， 因 此 同时 安装 了 这 两 个 操作 系统 (也 就 是 双 系 统 启动 )。 后 来 ， 
在 这 两 个 系统 之 间 切 换 的 需求 越 来 越 少 ， 有 了 时 我 其 至 对 Arch Linux 修 修补 补 ， 能 从 零 开 始 
自己 定制 操作 系统 。 这 时 能 用 的 只 有 命令 行 ， 而 且 想 做 什么 完全 随心 所 欲 。 很 快 ， 我 就 对 
使 用 命令 行 得 心 应 手 。 最 终 ， 由 于 业余 时 间 越 来 越 宝 贵 ， 我 决定 使 用 名 为 Ubuntu 的 GNU/ 
Linux 发 行 版 ， 因 为 它 易 于 使 用 并 且 有 庞大 的 社区 。 尽 管 如 此 ， 命 令 行 仍然 是 我 完成 绝 大 
部 分 工作 的 不 二 选择 。 


实际 上 ， 我 后 来 认识 到 ， 命 令 行 不 单 可 以 用 于 安装 软件 、 配 置 系统 以 及 搜索 文件 。 于 是 我 
开始 学 习 诸如 cut、sort 和 sed 这 些 命令 行 工具 。 这 些 工 具 都 是 将 数据 作为 输入 ， 对 数据 
进行 处 理 ， 然 后 打印 结果 。Ubuntu 自 带 了 相当 多 这 样 的 工具 。 当 明白 可 以 将 这 些小 工具 结 
合 起 来 使 用 时 ， 我 就 对 它 入 迷 了 。 


当 我 拿 到 博士 学 位 ， 成 为 一 名 数据 科学 家 上 时， 我 想 充 分 利用 这 种 方法 来 做 数据 科学 工作 。 
幸亏 有 几 个 新 的 开源 命令 行 工具 ， 包 括 scrape、jq 和 json2csv， 我 甚至 能 够 使 用 命令 行 来 
完成 抓 取 网 站 以 及 处 理 大 量 ISON 数据 这 样 的 任务 。2013 年 9 月 ， 我 写 了 一 篇 名 为 “数据 
科学 的 7 个 命令 行 工具 ”的 博客 文章 (http://jeroenjanssens.com/2013/09/19/seven-command- 
line-tools-for-data-science.html) 。 让 我 吃惊 的 是 ， 这 篇 文章 获得 很 大 反响 。 后 来 许多 人 向 我 
推荐 其 他 命令 行 工 具 ， 于 是 我 开始 考虑 是 否 可 以 将 这 篇 文章 扩充 成 书 。 令 人 高 兴 的 是 ，10 
个 月 之 后 ， 在 许多 才华 横 溢 的 人 的 帮助 下 (参见 “致谢 ”)， 本 书 得 以 付 梓 。 


分 享 这 段 个 人 经 历 不 仅 是 想 介绍 本 书 的 由 来 ， 更 是 希望 你 知道 我 也 是 需要 学 习 命 令 行 的 。 
使 用 命令 行 与 使 用 图 形 化 用 户 界面 过 然 不 同 ， 刚 开始 可 能 是 令 人 生 旦 的 。 但 是 ， 既 然 我 能 
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够 学 会 它 ， 你 当然 也 没 问 题 。 不 管 你 目前 使 用 的 是 什么 操作 系统 ， 也 不 管 你 现在 是 以 什么 
方式 做 数据 科学 的 工作 ， 读 完 本 书 ， 你 也 能 够 利用 命令 行 的 强大 能 力 。 即 使 你 已 经 熟悉 命 
令 行 ， 或 者 甚至 已 经 打算 学 习 shell 脚本 ， 你 仍然 可 能 在 书 中 发 现 一 些 有 趣 技巧 或 命令 行 工 
有 具 ， 能 用 于 未 来 的 数据 科学 项 目 。 


从 本 书 可 以 学 到 的 


书 中 将 对 大 量 数据 进行 获取 、 清 洗 、 探 索 以 及 建 模 。 我 们 不 会 过 多 介绍 如 何 完成 这 些 数 据 
科学 任务 ， 因 为 对 于 诸如 应 该 何 时 及 用 什么 进行 统计 检验 ， 或 者 怎样 才能 将 数据 可 视 化 做 
到 最 好 ， 很 容易 找到 大 量 参考 资料 。 本 书 致力 于 实用 性 ， 旨 在 通过 教 你 用 命令 行 执 行 数据 
科学 任务 ， 使 你 更 加 高 效 和 多 产 。 


尽管 书 中 讨论 了 80 多 个 命令 行 工具 ， 但 这 些 工 具 本 身 并 不 是 最 重要 的 。 有 些 命令 行 工具 
存在 已 入， 有 些 则 是 新 近 出 现 ， 并 且 可 能 最 终 会 被 更 好 的 工具 所 取代 。 甚 至 在 你 阅读 本 书 
的 时 候 ， 有 的 命令 行 工 具 正 在 创建 之 中 。 在 过 去 的 10 个 月 里 ， 我 就 已 经 发 现 了 许多 奇妙 
的 命令 行 工 具 。 遗 憾 的 是 ， 有 的 工具 被 发 现 的 时 间 太 晚 ， 无 法 包含 在 本 书 中 。 总 之 ， 命 令 
行 工具 的 新 陈 代谢 是 常态 。 


用 工具 、 管 道 和 数据 进行 工作 的 思想 才 是 最 重要 的 。 多 数 命令 行 工具 只 做 一 项 任务 ， 并 且 
做 得 很 好 。 这 符合 Unix 的 理念 ， 这 种 理念 在 书 中 许多 地 方 都 有 体现 。 一 旦 熟悉 了 命令 行 ， 
并 且 学 会 了 如 何 将 命令 行 工具 结合 起 来 ， 你 就 学 会 了 一 项 非常 宝贵 的 技能 。 如 果 还 能 创建 
新 的 工具 ， 那 你 就 出 类 技 萃 了 。 


* hoy += 
怎样 阅读 本 书 
一 般 来 说 ， 我 们 建议 你 按 顺 序 阅读 。 书 中 介绍 的 概念 或 者 命令 行 工具 
中 采用 。 例 如 在 第 9 章 中 使 用 了 parallel TR, KATRE 进 


， 很 可 能 会 在 下 一 章 
行 了 深入 的 讨论 。 


8 章 进 


第 
数据 科学 是 一 个 宽广 的 领域 ， 与 许多 领域 都 有 交叉 ， 例 如 程序 设计 、 数 据 可 视 化 以 及 机 器 
学 习 。 因 此 ， 本 书 触 及 了 许多 有 趣 的 话题 ， 遗 性 的 是 无 法 逐一 详尽 讨论 。 在 书 中 我 随时 都 
会 给 出 建议 的 参考 资料 。 如 果 只 是 想 跟着 本 书 的 节奏 ， 并 不 需要 学 习 这 些 参考 资料 ， 但 是 
如 果 你 感 兴趣 ， 可 以 深入 研究 一 下 这 些 推荐 的 资料 。 


本 书面 器 的 读者 


本 书面 向 的 读者 只 有 一 个 前 提 条 件 : 你 与 数据 打交道 。 使 用 哪 种 编程 语言 或 者 统计 计算 环 
晓 无 关 紧 要 。 本 书 会 在 开头 解释 所 有 必要 的 概念 。 


你 的 操作 系统 是 微软 Windows, Mac OS X 还 是 其 他 形式 的 Unix 系统 都 无 关 紧 要 。 书 中 自 


带 数据 科学 工具 箱 ， 这 是 一 个 容易 安装 的 虚拟 环境 。 它 使 你 可 以 运行 命令 行 工具 ， 并 可 以 
在 与 本 书 相同 的 环境 下 ， 跟 着 一 起 学 习 这 些 示 例 代 码 。 你 不 需要 浪费 时 间 来 研究 如 何 安装 
所 有 的 命令 行 工具 以 及 它们 依赖 的 环境 。 


书 中 包含 一 些 用 Bash, Python 和 R 编写 的 代码 ， 如 果 你 有 一 定 的 编程 经 验 会 有 帮助 ， 但 
con 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 


。 楷体 
表示 新 术语 。 


。 等 宽 字体 (Constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 
句 和 关键 字 等 。 


。 加 粗 等 宽 字 体 (Constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


这 个 图 标 表 示 提 示 或 建议 。 


这 个 图 标 表 示 一 般 注 记 。 


这 个 图 标 表 示警 告 或 提醒 。 


使 用 代码 示例 


补充 材料 〈 虚 拟 机 、 数 据 、 脚 本 、 定 制 的 命令 具 等 ) 可 以 从 https://github.com/ 


jeroenjanssens/data-science-at-the-command-line es i 


z 

Tii} 
x 
< 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联 系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Data Science at the Command Line by Jeroen H.M. Janssens 
(O'Reilly). Copyright 2015 Jeroen H.M. Janssens, 978-1-491-94785-2." 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions @ 
oreilly.com 与 我 们 联系 。 


Safari? Books Online 


Safari Books Online (http /Iwww.safaribooksonline.com) 是 应 运 而 

S afa 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 技 

Books Online 术 和 商务 作家 的 专业 作品 。 技 术 专家 、 软 件 开 发 人 员 、Web ix 

计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 题 、 学 习 和 认证 培训 时 ， 都 将 Safari 
Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 
Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 


Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
本 书 有 一 个 专属 网 页 ， 你 可 以 在 那儿 找到 与 代码 无 关 的 勘误 列表 以 及 其 他 信息 。 本 书 的 网 
站 地 址 是 : 


http://datascienceatthecommandline.com/ 


与 代码 、 命 令 行 工 具 和 虚拟 机 相关 的 勘误 ， 请 通过 GitHub 的 问题 追踪 系统 提交 : 


https://github.com/jeroenjanssens/data-science-at-the-command-line/issues 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
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中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 (100035) 
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bookquestions @ oreilly.com 


要 了 解 更 多 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 ; 


http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : 
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本 书 介绍 如 何 用 命令 行 来 做 数据 科学 工作 。 我 们 的 目的 是 通过 运用 命令 行 工 具 的 力量 ， 使 
你 成 为 一 名 高 效 和 多 产 的 数据 科学 家 。 


首先 需要 解释 一 下 书 名 中 同时 出 现 的 两 个 词 :“ 数 据 科 学 ”与 “命令 行 "。 一 项 已 经 有 40 
多 年 历史 ' 的 老 技术 ， 对 于 一 个 只 有 几 年 历史 的 领域 还 有 什么 用 处 吗 ? 


今天 ， 数 据 科 学 家 有 海量 的 激动 人 心 的 技术 和 编程 语言 可 供 选择 ，Python、R、Hadoop、 
Julia, Pig, Hive, Spark 就 是 其 中 一 些 例子 。 你 可 能 已 经 用 过 其 中 一 种 或 好 几 种 。 既 然 这 
样 ， 为 什么 仍然 应 该 关注 数据 科学 的 命令 行 工 具 ? 命令 行 提供 了 哪些 东西 ， 是 其 他 技术 和 
编程 语言 所 不 具备 的 ? 


这 些 都 是 合乎 情理 的 问题 。 第 1 章 将 回答 这 些 问 题 。 首 先 ， 给 出 了 数据 科学 的 一 个 实用 定 
义 作 为 本 书 的 基础 。 然 后 ， 列 出 了 命令 行 的 5 个 重要 优势 。 最 后 ， 通 过 一 个 现实 用 例 来 说 
明 命 令 行 的 能 力 和 灵活 性 。 到 本 章 结束 时 ， 和 希望 我 们 能 够 让 你 相信 ， 为 了 做 数据 科学 ， 命 
令 行 确实 是 值得 学 习 的 。 


1.1 概述 
本 章 你 将 学 到 ， 
。 数据 科学 的 一 个 实用 定义 


注 1: UNIX 操作 系统 的 发 展 早 在 1969 年 就 开始 了 (http//www.unix.org/what is unix/history. timeline.html) 。 
从 一 开始 ， 命 令 行 就 是 它 的 重要 特征 ， 而 管道 这 一 重要 概念 是 在 1973 年 加 入 的 。 


。 命令 行 究竟 是 什么 ， 以 及 如 何 使 用 命令 行 
命令 行 是 做 数据 科学 工作 的 绝 佳 环境 


1.2 ”数据 科学 就 是 OSEMN 


数据 科学 领域 仍然 处 于 萌芽 阶段 ， 正 因 如 此 ， 对 于 其 内 涵 有 着 各 种 各 样 的 定义 。 在 本 书 
门 按照 以 下 5 个 


中 ， 我 们 采用 了 Mason & Winggins (2010) 提出 的 非常 实用 的 定义 。 他 人 


步骤 定义 数据 科学 : (D 数据 获取 ，(2) 数据 清洗 ，(3) 数据 探索 ，(4) 数据 建 模 ，(5) 数据 解 


释 。 这 5 个 步骤 一 起 构成 了 OSEMN (发 音 同 awesome) 模型 。 这 个 定义 是 本 书 的 基础 ， 
因为 每 个 步骤 (除了 步骤 S$) 都 有 对 应 的 一 章 。 下 面 用 5 个 小 节 内 容 简 述 每 个 步骤 对 应 的 


内 容 。 


尽管 我 们 是 以 线性 和 渐进 的 方式 来 介绍 这 5 APR, (ATES, E 
序 以 及 同时 执行 多 个 步骤 都 很 常见 。 数 据 科学 是 迭代 和 非 线性 的 过 程 。 例 
如 ， 数 据 建 模 完毕 ， 对 结果 进行 观察 后 ， 你 可 能 会 决定 返回 到 清洗 步 又 来 调 


整数 据 集 的 特征 。 


1.2.1 数据 获取 


没有 数据 就 难以 进行 数据 科学 工作 。 因 此 第 一 个 步骤 就 是 数据 获取 。 除 非 你 很 幸运 ， 已 经 


拥有 了 相关 数据 ， 否 则 就 需要 做 下 列 工作 。 


。 从 其 他 地 方 ( 如 网 页 或 服务 器 ) 下 载 数据 

。 从 数据 库 或 API (如 MySQL x Twitter) 中 查询 数据 
。 从 其 他 文件 CAN HTML 文件 或 电子 表格 ) 中 提取 数据 
。 自己 生成 数据 (例如 读 取 传感器 或 进行 调查 ) 


第 3 章 我 们 讨论 使 用 命令 行 获 取 数 据 的 几 种 方法 。 获 取 数 据 的 格式 通常 是 纯 文本 、CSV、 


JSON 或 HTML/XML。 下 一 步 是 数据 清洗 。 


1.2.2 ”数据 清 ; 


在 所 获取 的 数据 中 ,缺失 值 、 不 一 至、 错误 、 人 怪异 字符 或 元 余 列 屡见不鲜 。 


洗 数 据 才 能 对 数据 进行 后 续 处 理 。 常 见 的 清洗 操作 包括 : 


。 行 过 滤 
。 列 抽取 
。 [n 
。 单词 提取 


这 时 ， 必 须 清 
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。 缺失 值 处 理 
。 数据 格式 转换 


尽管 我 们 数据 科学 家 热 圳 于 创建 激动 人 心 的 数据 可 视 化 模型 和 具有 洞察 力 的 其 他 模型 ( 步 
又 3 和 步骤 4)， 但 通常 首先 要 在 获取 和 清洗 所 需 数 据 (步骤 1 和 步骤 2) 上 付出 大 量 努 
力 。 在 “Data Jujitsu” (http:/radar.oreilly.com/2012/07/data-jujitsu.html) 一 文中 ，DJ Patil 就 
声称 “任何 数据 项 目 中 80% 的 工作 都 是 数据 清洗 ”(2012)。 第 5 章 我 们 将 演示 怎样 用 命令 
行 帮助 完成 这 类 数据 清洗 操作 。 


1.2.3 ”数据 探索 

一 旦 完成 数据 清洗 ， 就 可 以 准备 探索 数据 了 。 从 这 里 开始 ， 你 会 感觉 很 有 趣 ， 因 为 我 们 开 
始 真正 深入 到 数据 之 中 。 第 7 章 将 展示 如 何 用 命令 行进 行 以 下 工作 : 

。 查看 数据 

。 从 数据 中 推导 统计 量 

。 创建 有 趣 的 可 视 化 


a 


第 7 章 介 绍 的 命令 行 工具 包括 csvstat (Groskopf, 2014), feedgnuplot (Kogan, 2014) 
和 Rio (Janssens, 2014), 


12.4 数据 建 模 

如 果 想 解释 数据 或 预测 将 要 发 生 的 事情 ， 你 就 应 该 为 数据 建立 一 个 统计 模型 。 建 立 模 型 的 
技术 包括 聚 类 、 分 类 、 回 归 以 及 降 维 。 命 令 行 不 适用 于 从 头 开 始 实现 一 个 新 模型 ， 但 以 命 
令 行 为 基础 建立 模型 则 非常 有 用 。 第 9 章 我 们 将 介绍 若干 命令 行 工 具 ， 这 些 工 具有 的 在 本 
地 建立 模型 ， 有 的 使 用 API 来 执行 云端 的 计算 。 


1.2.5 ”数据 解释 

OSEMN 模型 中 最 后 的 步骤 是 数据 解释 ， 这 可 能 也 是 最 重要 的 步骤 。 这 个 步骤 中 包括 : 
。 从 数据 中 得 出 结论 

。 评估 结果 的 含义 

。 告知 你 的 结果 


坦白 地 说 ， 这 一 阶段 中 很 少 用 到 计算 机 ， 实 际 上 也 不 会 运行 命令 行 。 一 旦 到 了 这 一 步 ， 工 
作 就 该 你 本 人 亲自 做 了 。 这 是 OSEMN 模型 中 唯一 没有 单独 一 章 来 解释 的 步 又。 我 们 推 
厦 你 参考 Max Shron 的 Thinking with Data (由 O’Reilly F 2014 年 出 版 ，http://shop.oreilly. 
com/product/0636920029182.do) 一 书 。 


1.3 插入 的 几 章 


在 OSEMN 步骤 对 应 的 儿童 中间， 穿插 了 其 他 3 章 。 每 章 讨论 一 个 关于 数据 科学 的 普遍 问 
题 ， 以 及 如 何 用 命令 行 来 解决 这 些 问题 。 这 些 内 容 能 够 适用 于 数据 科学 过 程 中 的 任何 步骤 。 


第 4 章 我 们 讨论 如 何 创建 可 重用 的 命令 行 工 具 。 这 些 私 人 工具 可 能 来 自 你 在 命令 行 上 输入 
的 长 串 命令 ， 也 可 以 源 自 你 已 经 用 Python 或 者 R 编写 好 的 代码 。 能 够 创建 自己 的 工具 会 
使 你 更 加 高 效 和 多 产 。 


命令 行 是 做 数据 科学 工作 的 交互 式 环境 ， 因 此 跟踪 工作 流程 颇具 挑战 。 在 第 6 章 ， 我 们 将 
演示 一 个 名 为 Drake (Factual, 2014) 的 命令 行 工 具 ， 它 使 你 能 够 用 任务 和 任务 之 间 依 赖 
的 形式 来 定义 数据 科学 工作 流程 。 这 个 工具 能 够 增强 你 自己 的 工作 流程 的 可 再 现 性 ， 对 你 
的 同事 和 同行 也 一 样 有 用 。 


在 第 8 章 ， 我 们 解释 怎样 通过 并 行 运行 来 加 速 命令 行 和 工具 。 使 用 名 为 GNU Parallel 
(Tange, 2014) 的 命令 行 工 具 ， 可 以 将 命令 行 工 具 应 用 于 海量 的 数据 集 ， 并 在 多 核 和 远程 
机 器 上 运行 。 
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14 什么 是 命令 行 
在 讨论 为 什么 应 该 在 数据 科学 中 使 用 命令 行 之 前 ， 让 我 们 先 看 一 下 命令 行 的 庐山 真面目 
(或 许 你 已 经 熟悉 )。 图 1-1 和 图 1-2 分 别 展示 了 默认 情况 下 命令 行 在 Mac OS X 和 Ubuntu 
上 的 屏幕 截图 。Ubuntu 是 GUN/Linux 的 一 个 特殊 的 发 行 版 ， 本 书 始终 默认 使 用 该 系统 。 


@ O O jdst-dsatcl — vagrant@data-science-toolbox: ~ — ssh — 80x24 yw? 
Welcome to the Data Science Toolbox for Data Science at the Command Line 


Based on Ubuntu 14.04 LTS (GNU/Linux 3.13.0-24-generic x86 64) 


* Data Science at the Command Line: http://datascienceatthecommandline.com 
* Data Science Toolbox: http://datasciencetoolbox.org 

* Ubuntu documentation: http://help.ubuntu.com 

Last login: Mon Jul 21 14:39:45 2014 from 10.0.2.2 
vagrantédata-science-toolbox:^$ whoami 

vagrant 

vagrant@data-science-toolbox:~$ hostname 

data-science-toolbox 

vagrantédata-science-toolbox:^$ date 

Tue Jul 22 00:57:57 UTC 2014 

vagrantédata-science-toolbox:^$ echo 'The command line is awesome!' | cowsay 


< The command line is awesome! 


H-— | 


vagrant@data-science-toolbox:~$ i 


1-1; Mac OS X 上 的 命令 行 


vagrant @data-science-toolbox: ~ 


Welcome to the Data Science Toolbox for Data Science at the Command Line 


Based on Ubuntu 14.04 LTS (GNU/Linux 3.13.0-24-generic x86_64) 


* Data Science at the Command Line: http://datascienceatthecommandline.com 
* Data Science Toolbox: http: //datasciencetoolbox.org 
* Ubuntu documentation: http: //help.ubuntu.com 
Last login: Mon Jul 21 01:11:59 2014 from 10.0.2.2 
vagrant@data-science-toolbox:~$ whoami 
vagrant 
vagrant@data-science-toolbox:~$ hostname 
data-science- toolbox 
vagrant@data-science-toolbox:~$ date 
Mon Jul 21 01:29:04 UTC 2014 
vagrant@data-science-toolbox:~$ echo 'The command line is awesome!' | cowsay 


< The command line is awesome! > 


>) 
(RN DAVAN 


[l----w | 


vagrant@data-science-toolbox:~$ 


& 1-2; Ubuntu 上 的 命令 行 


这 两 个 截图 中 的 窗 体 称 为 终端 ， 是 帮助 你 与 shell 交互 的 程序 。 我 们 输入 的 命令 都 是 由 


shell 执行 的 (Ubuntu 和 Mac OS X 的 默认 shell 都 是 Bash ) 。 


我 们 没有 给 出 微软 Windows 系统 的 命令 行 (也 就 是 命令 提示 符 或 
PowerShell) ， 这 是 因为 它 与 本 书 中 给 出 的 命令 行 有 着 根本 上 的 不 同 ， 并 且 也 
不 兼容 。 不 过 ， 好 消息 是 可 以 在 微软 Windows 上 安装 数据 科学 工具 箱 ， 这 样 
你 仍然 能 够 跟随 本 书 学 习 。 我 们 将 在 第 2 章 介绍 怎样 安装 数据 科学 工具 箱 。 


需要 输入 命令 ， 这 是 与 图 形 用 户 界面 截然 不 同 的 人 机 交互 方式 。 如 果 你 习惯 于 使 用 微软 
Excel 来 处 理 数据 ， 那 么 刚 开始 命令 行 可 能 显得 很 烦人 。 请 不 要 担心 ， 我 保证 你 很 快 就 会 


习惯 的 。 


本 书 中 ， 我 们 输入 的 命令 及 其 输出 都 以 文本 的 形式 显示 。 例 如 ， 以 上 两 个 屏幕 截图 中 ， 终 


端 上 的 内 容 (欢迎 信息 之 后 ) 将 会 是 : 


$ whoami 

vagrant 

$ hostname 

data-science-toolbox 

$ date 

Tue Jul 22 02:52:09 UTC 2014 

$ echo 'The command line is awesome!' cowsay 


\ ^ ^ 


你 可 能 还 会 注意 到 每 个 命令 前 面 都 有 一 个 美元 符号 ($)， 这 叫 作 提 示 符 。 以 上 两 个 屏 
幕 截 图 中 的 提示 符 包 含 了 更 多 的 信息 ， 包 括 用 户 名 (vagrant)、 主 机 名 (data-science- 
toolbox) 和 当前 的 工作 目录 (~)。 在 例子 中 使 用 美元 符号 是 惯例 ， 因 为 这 个 提示 符 既 能 够 
在 会 话 期 间 改 变 ( 当 你 进入 另外 的 目录 时 )， 又 能 够 由 用 户 定 制 (例如 ， 它 还 能 够 显示 时 
间或 你 当前 所 在 的 git (Torvalds & Hamano, 2014) 分 支 ， 还 可 以 与 命令 本 身 无 关 。 


下 一 章 我 们 将 对 基本 的 命令 行 概念 做 出 更 多 解释 。 现 在 ， 首 先 来 解释 一 下 为 什么 你 应 该 学 
习 使 用 命令 行 来 做 数据 科学 工作 。 
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15 为 什么 用 命令 行 做 数据 科学 工作 
命令 行 有 许多 显著 的 优点 ， 能 使 你 真正 成 为 更 加 高 效 和 多 产 的 数据 科学 家 。 粗 略 地 总 结 一 下 ， 
这 些 优点 包括 : 灵活 、 可 增强 、 可 扩展 、 可 扩充 以 及 无 所 不 在 。 下 面 详细 阐述 每 条 优点 。 
1.5.1 ”命令 行 的 灵活 性 


命令 行 的 第 一 个 优点 是 它 能 赋予 你 灵活 性 。 数 据 科 学 具有 很 强 的 交互 性 和 探索 性 ， 你 的 数 
据 科 学 工作 环境 应 该 支持 这 样 的 特性 。 命 令 行 通 过 两 种 方法 来 达到 这 个 目的 。 


首先 ， 它 提供 了 称 为 读 取 - 求 值 -打印 -循环 (read-eval-print-loop, REPL) 的 机 制 。 这 
意味 着 输入 一 个 命令 ， 按 下 回 车 键 ， 这 个 命令 就 立即 被 执行 得 出 结果 。 在 数据 科学 中 ， 
REPL 经 常 比 编辑 — 编译 一 运行 -调试 循环 方便 得 多 ， 后 者 通常 适用 于 脚本 、 大 型 程序 以 
及 Hadoop 任务 。 命 令 立 即 就 会 执行 ， 也 可 以 随意 停止 ,还 可 以 迅速 修改 。 这 种 简短 的 迭 
代 循 环 能 使 你 真正 享受 鼓 捣 数 据 的 乐趣 。 


其 次 ， 它 与 文件 系统 的 距离 很 近 。 数 据 是 数据 科学 工作 的 主要 原料 ， 因 此 很 重要 的 一 点 是 
要 能 很 容易 地 处 理 包 含 数据 集 的 文件 。 命 令 行 为 此 提供 了 许多 方便 的 工具 。 


1.5.2 ”命令 行 可 增强 

不 论 目 前 你 的 数据 科学 工作 流程 使 用 了 哪 种 技术 (R, IPython 还 是 Hadoop) ， 你 都 应 该 明 
白 我 们 并 不 建议 抛弃 这 些 工 作 流 程 。 相 反 ， 这 里 讲 到 的 命令 行 技术 扮演 了 倍增 器 的 角色 ， 
能 够 增强 你 现 有 技术 的 威力 。 
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命令 行 与 其 他 技术 能 够 无 颖 集成 。 一 方面 ， 你 可 以 经 常 在 自己 的 工作 环境 中 采用 命令 行 。 
例如 ， 可 以 在 Python AIR 中 运行 命令 行 工 具 并 捕获 其 结果 。 另 一 方面 ， 也 可 以 将 自己 的 
代码 (例如 以 前 编写 的 Python 或 R 函数 ) 转变 为 命令 行 工具 。 我 们 将 在 第 4 章 详 细 讨 论 
这 一 问题 。 此 外 ， 命 令 行 易于 和 各 种 数据 库 及 文件 类 型 (如 微软 Excel) 协同 工作 。 


当然 ， 任 何 技术 都 有 优点 和 不 足 〈 包 括 命令 行 )， 因 此 最 好 是 通晓 多 种 技术 ， 根 据 具体 任 
务 使 用 最 适合 的 技术 。 有 时 应 使 用 R， 有 时 是 命令 行 ， 有 时 甚至 是 笔 和 纸 。 看 完 本 书 ， 你 
将 深刻 理解 什么 时 候 可 以 使 用 命令 行 ， 以 及 什么 时 候 继续 使 用 你 喜欢 的 编程 语言 或 统计 计 
算 环 境 更 好 。 


1.5.3 ”命令 行 可 扩展 
使 用 命令 行 与 使 用 图 形 用 户 界 面 (GUI) 是 截然 不 同 的 。 命 令 行 是 通过 输入 命令 来 使 用 的 ， 
GUI 则 是 通过 鼠标 指向 和 点 击 来 使 用 的 。 


在 命令 行 上 人 工 输入 的 所 有 任务 ， 都 可 以 通过 脚本 和 工具 自动 化 。 这 样 ， 在 发 生 错误 、 数 据 
集 改变 或 你 的 同事 需要 执行 相同 分 析 时 ， 可 以 很 容易 地 重新 执行 命令 。 此 外 ， 命 令 可 以 在 远 
程 服务 器 上 以 指定 的 时 间 间 隔 执 行 ， 还 可 以 在 大 量 数据 上 并 行 执 行 (第 8 章 进一步 阐述 )。 

由 于 命令 行 是 可 以 自动 化 的 ， 因 此 它 是 可 扩展 和 可 重复 的 。 相 反 ， 要 将 鼠标 指向 和 点 击 自 
动 化 则 疫 那么 简单 ， 因 此 对 于 需要 可 扩展 性 和 可 重复 性 的 数据 科学 而 言 ，GUI 环境 就 没 那 


么 合适 了 。 


1.5.4 命令 行 可 扩充 

命令 行 是 在 40 多 年 前 发 明 的 。 它 的 核心 功能 绝 大 部 分 未 曾 改变 ， 但 是 作为 命令 行 的 主力 
的 命令 行 工 具 ， 几 乎 每 天 都 有 新 的 出 现 。 

命令 行 本 身 是 不 依赖 于 语言 的 。 这 使 得 命令 行 工 具 的 编写 语言 五 花 八 门 。 开 源 社 区 提供 了 
许多 可 以 用 于 数据 科学 的 命令 行 工 具 ， 它 们 都 免费 并 且 质 量 很 高 。 


这 些 工具 能 够 一 起 工作 ， 这 使 得 命令 行 非常 灵活 。 你 也 可 以 创建 属于 自己 的 工具 ， 从 而 使 
你 能 够 扩展 命令 行 的 有 效 功 能 。 


1.5.5 ”命令 行 无 处 不 在 

包括 Ubuntu 和 Mac OS X 在 内 的 所 有 类 Unix 操作 系统 都 自 带 有 命令 行 ， 因 此 在 许多 计 
算 机 上 都 能 找到 它 。 根 据 Top 500 超级 计算 机 网 站 上 的 文章 (http://top500.org/blog/ 
lists/2013/11/press-release) Top 500 超级 计算 机 中 9596 运行 的 是 GNU/Linux。 因 此 ， 如 
果 你 要 接触 这 些 超级 计算 机 〈 或 者 你 想 逃 离 侏 罗 纪 公园 ， 却 发 现 门 锁 坏 了 ) ， 最 好 熟悉 命 
令 行 。 


GNU/Linux PEERAA fr, wee fre AS d. EOS TELLE S HAN IR BE 
中 。 现 在 ， 许 多 企业 提供 云 计 算 服 务 ， 你 可 以 很 容易 地 联机 局 动 新 的 机 器 。 如 果 你 曾经 登 
录 进 入 这 样 的 机 器 (或 者 更 一 般 的 服务 器 )， 那 么 很 可 能 会 接触 到 命令 行 。 


在 讨论 了 命令 行 的 无 所 不 在 之 后 ， 需 要 重点 强调 的 是 ， 命 令 行 绝 不 是 过 眼 烟云 似 的 炒作 。 
这 项 技术 已 经 有 40 多 年 的 历史 ， 我 个 人 相信 它 还 可 以 再 持续 40 年 。 因 此 ， 学 习 如 何 使 用 
命令 行 (用 于 数据 科学 ) 是 一 项 物 有 所 值 的 投资 。 


rn 
1.6 一 个 现实 用 例 
前 面 我 们 给 出 了 数据 科学 的 定义 ， 解 释 了 为 什么 命令 行 是 进行 数据 科学 工作 的 优异 环境 。 
现在 ,该 通过 一 个 现实 用 例 来 展示 命令 行 的 能 力 和 灵活 性 了 。 我 们 将 快刀 斩 乱 及， 如 果 有 
不 理解 的 地 方 ， 请 先 不 必 担 心 。 


我 个 人 似乎 从 来 不 记得 纽约 的 时 装 周 什么 时 候 开 幕 。 我 只 知道 每 年 举办 两 次 ， 但 每 次 举办 
都 让 我 出 乎 意料 ! 本 节 我 们 将 通过 查阅 《纽约 时 报 》 好 用 的 Web API， 来 计算 时 装 周 的 举 
办 时 间 。 首 先 要 在 开发 者 网 站 (http:Wdeveloper.nytimes.com) 取得 自己 的 API 密 钥 ,这 样 
就 能 进行 搜索 文章 、 歼 取 畅 销 列 表 以 及 查看 事件 清单 这 样 的 操作 。 


我 们 将 要 查询 的 特定 API 端点 是 文章 搜索 。 我 们 期 望 通过 《纽约 时 报 》 对 纽约 时 装 周 的 
报道 数量 的 高 峰 ， 判 断 它 是 否 开始 。API 的 结果 是 分 页 的 ， 这 意味 着 必须 以 不 同 的 页 码 
多 次 执行 相同 的 查询 (这 类 似 于 在 搜索 引擎 上 点 击 “ 下 一 页 ”按钮 )。 这 时 GNU Parallel 
(Tange, 2014) 就 可 以 大 显 身 手 ， 因 为 它 可 以 充当 for 循环 。 所 需要 的 全 部 命令 如 下 所 示 
(不 要 担心 parallel 的 那 一 长 串 命令 行 参 数 ， 我 们 将 会 在 第 8 章 详细 讨论 ) : 


$ cd ~/book/ch01/data 

$ parallel -j1 --progress --delay 0.1 --results results "curl -sL "Y 

> "'http://api.nytimes.com/svc/search/v2/articlesearch. json?q=New+York+'"\ 
"'Fashion+tWeek&begin_date={1}0101&end_date={1}1231&page={2}&api-key='"\ 


> 
> "'<your-api-key>'" ::: {2009..2013} ::: {0..99} > /dev/null 


Computers / CPU cores / Max jobs to run 


1:local / 4/1 


Computer: jobs running/jobs completed/*Xof started jobs/Average seconds to 
complete 
local:1/9/100%/0.4s 


实际 上 ， 要 对 2009-2014 年 执行 相同 的 查询 。 对 每 个 查询 ，API 最 多 返回 100 页 (从 0 开 
台 计 数 ) ， 因 此 使 用 大 括号 扩展 生成 100 个 数字 。 查 询 中 的 “page” 参 数 使 用 这 些 数 字 。 现 
在 我 们 要 查找 2013 年 包含 搜索 项 “New+York+Fashion+Week” 的 文章 。 由 于 API 有 一 定 
的 限制 ， 需 要 确保 每 次 只 有 一 个 请 求 ， 请 求 之 间 有 1 秒 的 延迟 。 这 里 ， 要 确保 将 <your- 
api-key> 替换 为 自己 文章 搜索 端点 的 API 密 钥 。 
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每 个 请 求 返回 10 篇 文章 ， 因 此 总 共有 1000 篇 文章 。 文 章 通过 页 面 访 问 量 排序 ， 据 此 可 以 
对 报道 做 一 个 很 好 的 估计 。 请 求 结果 是 ISON 格式 ， 存 储 在 result 目录 中 。 通 过 命令 行 工 
具 tree (Baker, 2014) 可 以 查看 子 目 录 结 构 : 


$ tree results | head 


results 

L- 1 
|— 2009 
| —2 
| [一 9 
| | bL stderr 
| |  —— stdout 
| [一 1 
| | bL stderr 
| [ems 


现在 使 用 cat (Granlund & Stallman, 2012), ja (Dolan, 2014) 和 json2csv (Czebotar, 
2014) 来 合并 和 处 理 结果 : 


$ cat results/1/*/2/*/stdout | o 
> jq -c '.response.docs[] | (date: .pub date, type: .document type, '\ e 
> 'title: .headline.main }' | json2csv -p -k date,type,title > fashion.csv © 


把 这 条 命令 分 解 开 来 : 


0 将 每 500 个 parallel 任务 (或 API 请 求 ) 的 结果 合并 起 来 。 
@ 使 用 jq 抽取 出 版 日 期 、 文 档 类 型 以 及 每 篇 文章 的 标题 。 
© 使 用 json2csv 将 JSON 数据 转换 为 CSV 格式 ， 将 其 存 为 fashion.csv。 


通过 使 用 wc -l (Rubin & MacKenzie，2012) ， 我 们 发 现 数据 集 包 含 4855 篇 文章 (不 是 
5000 篇 ， 因 为 之 前 我 们 很 可 能 提取 了 从 2009 年 开始 的 所 有 东西 ) : 


$ wc -L fashion.csv 
4856 fashion.csv 


现在 ， 让 我 们 检查 前 10 篇 文章 ， 来 验证 是 否 已 经 成 功 获 取 了 数据 。 需 要 注意 的 是 ， 我 们 
在 date 列 上 使 用 cols (Janssens, 2014) 和 cut (Ihnat, MacKenzie & Meyering, 2012) 来 


删 掉 表 中 的 时 间 和 时 区 信息 : 

$ < fashion.csv cols -c date cut -dT -fl | head | csvLook 
ļ------------- I eMe | 
| date | type | title | 
ļ------------- +------------ eMe | 
| 2009-02-15 | multimedia | Michael Kors | 
| 2009-02-20 | multimedia | Recap: Fall Fashion Week, New York | 
| 2009-09-17 | multimedia | UrbanEye: Backstage at Marc Jacobs | 
| 2009-02-16 | multimedia | Bill Cunningham on N.Y. Fashion Week | 
| 2009-02-12 | multimedia | Alexander Wang 


| 2009-09-17 | multimedia | Fashion Week Spring 2010 

| 2009-09-11 | multimedia | Of Color | Diversity Beyond the Runway 

| 2009-09-14 | multimedia | A Designer Reinvents Himself 

| 2009-09-12 | multimedia | On the Street | Catwalk 
* 


看 起 来 已 经 大 功 告 成 ! 为 了 尽 可 能 加 次 理解 ， 最 好 将 数据 可 视 化 。 图 1-3 中 是 用 R (R 
Foundation for Statistical Computer， 2014), Rio (Janssens, 2014) 和 ggplot2 (Wickham, 
2009) 生成 的 线形 图 。 


$ < fashion.csv Rio -ge 'g + geom freqpoly(aes(as.Date(date), color-type), '\ 
> 'binwidth-7) + scale x date() + labs(x-"date", title="Coverage of New York'\ 
» 'Fashion Week in New York Times")' | display 


《纽约 时 报 》 对 纽约 时 装 周 的 报道 


754 
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图 1-3:《 纽 约 时 报 》 关 于 纽约 时 装 周 的 报道 


通过 查看 线形 图 ， 可 以 推断 纽约 时 装 周 每 年 举办 两 次 。 现 在 我 们 知道 具体 时 间 了 : 一 次 在 
2 月 ， 另 一 次 在 9 月 。 假 设 今年 也 将 在 同样 的 时 间 举办 ， 这 样 我 们 就 可 以 做 好 准备 了 。 不 
管 怎 样 ， 希 望 这 个 例子 能 告诉 你 , 《纽约 时 报 》API 是 一 个 有 趣 的 数据 源 。 更 重要 的 是 ， 希 
望 你 相信 ， 命 令 行 是 进行 数据 科学 工作 的 非常 棒 的 方法 。 


本 节 我 们 简单 浏览 TEE 命令 行 工具 。 如 果 你 现在 还 设 有 体会 到 革 
些 东 西 的 价值 ， 请 不 要 担心 。 第 2 章 将 讨论 大 部 分 概念 ， 接 下 来 的 儿童 要 对 本 节 中 使 用 的 
所 有 命令 行 工 具 做 更 详细 的 介绍 。 


1.7 延伸 阅读 


* Mason, H., & Wiggins, C. H. (2010). A Taxonomy of Data Science. Retrieved May 10, 2014, 
from http://www.dataists.com/2010/09/a-taxonomy-of-data-science. 

。 Patil, D (2012). Data Jujitsu. O'Reilly Media. 

e O'Neil, C., & Schutt, R. (2013). Doing Data Science. O'Reilly Media. 

e Shron, M. (2014). Thinking with Data. O'Reilly Media. 
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本 章 将 确保 你 具备 使 用 命令 行进 行 数 据 科学 工作 的 全 部 先决 条 件 。 这 些 条 件 分 为 两 个 部 
D: (1) 建立 一 个 合适 的 环境 ， 包 含 本 书 中 所 使 用 的 所 有 命令 行 工具 。(2) 理解 使 用 命令 行 
时 涉及 的 必要 概念 。 

首先 介绍 怎样 安装 数据 科学 工具 箱 ， 这 是 一 个 基于 GNU/Linux 的 虚拟 环境 ， 包 含 了 所 有 必 
要 的 命令 行 工具 。 接 下 来 举例 解释 必要 的 命令 行 概念 。 

读 完 本 章 ， 你 将 具备 继续 进行 数据 科学 工作 的 第 1 个 步骤 〈 即 数据 获取 ) 所 需要 的 全 部 
东西 。 


2.1 概述 
本 章 你 将 学 到 ， 


。 怎样 设置 数据 科学 工具 箱 
。 用 命令 行进 行 数据 科学 工作 所 需 掌 握 的 概念 和 工具 


SJL 米 N EA Ac 
2.2 设置 数据 科学 工具 箱 
书 中 使 用 了 许多 不 同 的 命令 行 工具 。 我 们 使 用 的 GNU/Linux 发 行 版 Ubuntu 自 带 了 一 大 堆 
预 安装 的 命令 行 工具 ， 并 且 还 提供 了 许多 包含 其 他 相关 命令 行 工 具 的 程序 包 。 自 行 安装 
这 些 程序 包 并 不 是 很 困难 的 事 。 不 过 ， 我 们 还 用 到 一 些 无 法 以 程序 包 形 式 提 供 的 命令 行 工 
具 ， 安 装 这 些 工具 需要 更 多 的 人 工 操作 ， 也 更 复杂 一 些 。 为 了 获得 必要 的 命令 行 工 具 而 不 
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经 历 复杂 的 安装 过 程 ， 我 们 鼓励 你 安装 数据 科学 工具 箱 


如 果 你 选择 在 本 地 而 不 是 虚拟 机 中 运行 命令 行 工具 ， 那 就 可 以 逐个 安装 命令 
行 工具 ， 不 过 请 注意 这 会 非常 耗 时 。 附 录 A 列 出 了 书 中 使 用 的 全 部 命令 行 工 
具 。 安 装 说 明 只 是 针对 Ubuntu 的 ， 如 果 要 在 其 他 操作 系统 上 安装 本 地 的 命 
令 行 工 具 ， 请 到 本 书 的 网 站 (http://datascienceatthecommandline.com/) 查找 
最 新 信息 。 书 中 使 用 的 脚本 和 数据 集 可 以 从 本 书 的 GitHub 资源 库 (https:// 


github.com/jeroenjanssens/data-science-at-the-command-line) 中 复制 得 到 。 


数据 科学 工具 箱 是 一 个 虚拟 环境 ， 它 使 你 能 够 在 几 分 钟 内 开始 数据 科学 工作 。 上 默认 版 本 自 
带 有 常用 的 数据 科学 软件 ， 包 括 Python 科学 计算 栈 以 及 带 有 其 最 流行 程序 包 的 R 语言 。 
额外 的 软件 和 数据 包 很 容易 安装 。 这 些 包 可 以 是 某 本 书 、 某 门 课 程 或 某 个 组 织 所 特有 的 。 
在 数据 科学 工具 箱 网 站 (http://datasciencetoolbox.org/) 上 可 以 了 解 到 更 多 信息 。 


设置 数据 科学 工具 箱 有 两 种 方式 : (1) 使 用 VirtualBox 和 Vagrant 在 本 地 安装 ，(2) 使 用 亚 
Lift Web 服务 在 云 上 启动 。 两 种 方式 生成 的 环境 是 完全 相同 的 。 本 章 介绍 怎样 在 本 地 为 基 
于 命令 行 的 数据 科学 设置 数据 科学 工具 箱 。 如 果 你 希望 在 云 上 运行 它 ， 或 者 遇 到 问题 ， 请 
参考 本 书 的 网 站 。 


最 简单 的 方式 就 是 将 数据 科学 工具 箱 安装 在 本 地 机 器 上 。 由 于 数据 科学 工具 箱 的 本 地 版 本 是 
在 VirtualBox 和 Vagrant 上 运行 ， 因 此 可 以 将 其 安装 到 Linux, Mac OS X 和 微软 Windows E. 


2.2.1 步骤 1: 下 载 和 安装 VirtualBox 
进入 VirtualBox (Oracle, 2014) 的 下 载 页 面 (https:Wwww.virtualbox.org/wiki/Downloads ) , 
下 载 适 合 你 的 操作 系统 的 二 进 制 安装 文件 。 打 开 安 装 文件 ， 按 照 安装 说 明 来 操作 。 


2.2.2 ”步骤 2: 下 载 和 安装 Vagrant 
与 步骤 1 类 似 ， 进 入 Vagrant (HashiCorp, 2014) 的 下 载 页 面 (http:/www.vagrantup.com/ 
downloads.html) ， 下 载 相应 的 二 进 制 安装 文件 。 打 开 安装 文件 ， 按 照 安装 说 明 进 行 操作 。 
如 果 以 前 安装 过 Vagrant， 要 确保 其 版 本 号 不 低 于 1.5。 


2.2.3 步骤 3: 下 载 并 启动 数据 科学 工具 箱 
打开 终端 (微软 Windows 中 称 为 命令 提示 符 或 PowerShell)。 创 建 一 个 目录 ， 例 如 
MyDataScienceToolbox， 输 入 下 列 命令 进入 该 目录 : 


$ mkdir MyDataScienceToolbox 
$ cd MyDataScienceToolbox 
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运行 下 列 命令 初始 化 数据 科学 工具 箱 : 
$ vagrant init data-science-toolbox/data-science-at-the-command-line 


这 就 创建 了 一 个 名 为 Vagrantfile 的 文件 。 这 是 一 个 配置 文件 ， 用 来 告诉 Vagrant 怎样 启动 
虚拟 机 。 它 包含 许多 被 注释 掉 的 代码 。 最 精简 的 版 本 如 示例 2-1 所 示 。 


示例 2-1 Vagrant 的 最 精简 配置 


Vagrant.configure(2) do |config| 
config.vm.box = "data-science-toolbox/data-science-at-the-command- line" 


end 
运行 下 列 命 令 ， 就 可 以 下 载 并 启动 数据 科学 工具 箱 : 
$ vagrant up 


如 有 果 一 切 顺 利 ， 现 在 你 就 拥有 了 一 个 运行 于 本 地 机 器 上 的 数据 科学 工具 箱 了 。 


如 果 你 看 到 了 以 下 消息 重复 显示 : default: Warning: Connection time out. 
Retrying...， 可 能 是 虚拟 机 在 等 竺 输入。 这 可 能 是 因为 虚拟 机 没有 正确 关 
闭 。 为 了 查 出 问题 所 在 ， 在 Vagrantfile 末尾 的 end 语句 前 加 入 下 列 代码 (也 
可 参考 示例 2-2) : 

config.vm.provider "virtualbox" do |vb| 

vb.gui = true 

end 
这 会 使 VirtualBox 显示 出 界面 。 旦 虚拟 机 完成 启动 ， 并 且 你 已 找 出 问题 所 
在 ， 就 可 以 将 这 些 代码 从 Vagrantfile 中 删除 。 登 录 所 需要 的 用 户 名 和 密码 都 
是 vagrant。 如 果 问 题 仍然 无 法 解决 ， 建 议 你 查 一 下 本 书 的 网 站 ， 里 面包 含 
常见 问题 的 最 新 清单 。 


示例 2-2 给 出 了 一 个 稍 显 复杂 的 Vagrantfile。 你 可 以 在 http://docs.vagrantup.com 上 查看 更 
多 的 配置 选项 。 


示例 2-2 配置 Vagrant 


Vagrant.require version ">= 1.5.0" o 
Vagrant.configure(2) do |config| 
config.vm.box = "data-science-toolbox/data-science-at-the-command- line" 
config.vm.network "forwarded port", guest: 8000, host: 8000 e 
config.vm.provider "virtualbox" do |vb| 
vb.gui = true e 
vb.memory = 2048 (4) 
vb.cpus = 2 e 
end 
end 
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© Vagrant 的 版 本 号 不 低 于 1.5.0. 

e 转发 端口 号 为 8000。 这 在 你 想 要 查看 所 创建 的 图 形 时 很 有 用 ， 对 此 第 7 章 会 有 所 涉及 。 
e 启动 一 个 图 形 用 户 界面 。 

@ 使 用 2 GB 的 内 存 。 

@ 使 用 2 个 CPU。 


2.2.4 步骤 4: 登录 (Linux 和 Mac OS X) 


令 来 登录 数据 科学 工具 箱 : 
$ vagrant ssh 

儿 秒 钟 之 后 ， 你 就 可 以 看 到 下 列 欢迎 消息 : 
Welcome to the Data Science Toolbox for Data Science at the Command Line 
Based on Ubuntu 14.04 LTS (GNU/Linux 3.13.0-24-generic x86 64) 
* Data Science at the Command Line: http://datascienceatthecommandline.com 
* Data Science Toolbox: http: //datasciencetoolbox.org 


* Ubuntu documentation: http: //help.ubuntu.com 
Last login: Tue Jul 22 19:33:16 2014 from 10.0.2.2 


2.2.5 步骤 4: ER Cm Windows) 

如 果 你 运行 微软 Windows， 就 需要 用 图 形 用 户 界面 (关于 如 何 设置 请 参考 前 面 的 步骤 2), 
或 者 使 用 第 三 方 应 用 程序 ， 来 运行 Vagrant， 这 样 才 能 登录 数据 科学 工具 箱 。 对 于 后 面 这 
种 情况 ， 我 们 推荐 你 使 用 PuTTY。 进 入 PuTTY 的 下 载 页面 (http//www.chiark.greenend. 
org.uk/~sgtatham/putty/download.html) ， 下 载 putty.exe。 运 行 PuTTY， 输 入 下 列 数值 : 


。 主机 名 (或 地 址 ) : 127.0.0.1 
。 端口 号 ; 2222 
* 连接 类 型 ; SSH 


如 果 需 要 ， 可 以 点 击 保存 按钮 将 这 些 值 存 为 一 个 会 话 ， 这 样 下 次 就 不 需要 再 次 输入 这 些 值 
了 。 点 击 打开 按钮 ， 在 用 户 名 和 密码 处 都 输入 vagrant, 


2.2.6 ”步骤 5: 关闭 或 重启 


可 以 在 与 运行 vagrant up 命令 相同 的 目录 下 运行 下 列 命令 来 关闭 数据 科学 工具 箱 


$ vagrant halt 


如 果 希 望 关闭 数据 科学 工具 箱 ， 然 后 再 次 启动 ， 可 以 输入 : 


$ vagrant destroy 


然后 ， 按 照 前 面 步骤 3 的 方法 再 次 设置 数据 科学 工具 箱 。 


2.3 ”必要 的 概念 和 工具 


第 1 章 简要 介绍 了 什么 是 命令 行 。 既 然 你 拥有 了 自己 的 数据 科学 工具 箱 ， 我 们 就 可 以 真正 
开始 了 。 本 市 我 们 讨论 为 了 得 心 应 手 地 用 命令 行进 行 数据 科学 工作 ， 所 需要 了 解 的 几 个 概 
念 和 工具 。 如 果 到 目前 为 止 你 主要 使 用 图 形 用 户 界面 ， 这 可 能 是 一 个 巨大 转变 。 但 是 也 不 
必 担 心 ， 我 们 将 从 基础 讲 起 ， 一 点 点 地 逐步 进 阶 到 高 级 主题 。 


本 节 不 是 GNU/Linux 的 完整 教程 。 我 们 只 解释 与 基于 命令 行 的 数据 科学 工作 
相关 的 概念 和 工具 。 数 据 科学 工具 箱 的 一 个 优势 在 于 大 量 东西 都 是 现成 的 。 
如 果 你 希望 更 多 地 了 解 GNU/Linux， 参 见 本 章 末 尾 的 “延伸 阅读 ”。 


2.3.1 环境 


现在 你 刚刚 登录 进入 一 个 全 新 的 环境 。 在 一 切 工作 开始 之 前 ， 详 细 了 解 一 下 环境 是 很 有 必 
要 的 。 这 个 环境 可 以 由 四 个 层次 来 粗略 定义 ， 我 们 自 上 而 下 简要 讨论 。 


。 命令 行 工具 

首先 是 你 使 用 的 命令 行 工 具 。 我 们 通过 输入 对 应 的 命令 来 使 用 它们 。 命 令 行 工具 有 不 同 
的 类 型 ， 这 将 在 下 一 章 中 讨论 。 举 例 来 说 ， 这 些 工具 包括 ls (Stallman & MacKenzie, 
2012), cat (Granlund & Stallman，2012)， 以 及 jq (Dolan, 2014), 


位 于 第 二 层 的 终端 是 我 们 输入 命令 的 应 用 程序 。 如 果 看 到 下 列 文本 : 


就 意味 着 你 向 终端 中 输入 了 seq 3， 然 后 按 下 了 回 车 键 。[ 命令 行 工具 seq (Drepper， 
2012) 生成 一 个 数字 序列 。] 美元 符号 不 是 你 输入 的 ， 它 只 是 作为 提示 符 让 你 知道 可 以 
输入 这 个 命令 。seq 3 下 面 的 文本 就 是 命令 的 输出 。 第 1 章 中 ， 我 们 用 两 幅 截 图 展示 了 
在 Mac OS X 和 Ubuntu 上 运行 各 种 命令 及 其 输出 时 ， 终 端 是 什么 样 的 。 
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2. 


shell 

simae shell。 一 旦 输入 了 命令 并 按 下 回 车 键 ， 终 端 就 将 命令 送 给 shell, shell 是 对 命 
行 解释 的 程序 。 数 据 科学 工具 箱 使 用 Bash 作为 shell， 不 过 还 有 许多 其 他 shell 可 以 

一 且 对 命令 行 略 有 心得 ， ings 会 对 称 为 Z shell 的 shell 感 兴趣 。 它 提供 了 许多 

额外 的 特性 ， 能 够 提高 你 使 用 命令 行 的 工作 效率 。 


操作 系统 

第 四 层 是 操作 系统 ， 本 书 指 的 就 是 GNU/Linux, Linux 是 内 核 的 名 字 ， I 
的 核心 。 内 核 与 CPU、 磁 盘 以 及 其 他 硬件 直接 交互 。 内 核 也 运行 我 们 的 命令 行 工具 。 
GNU 是 GNU's Not Unix 的 缩写 ， 指 的 是 一 系列 基础 工具 。 数 据 科学 工具 箱 基于 的 是 称 
为 Ubuntu 的 Linux 特殊 发 行 版 。 


3.2 ”运行 命令 行 工具 


既然 你 对 环境 有 了 一 定 的 理解 ， 现 在 就 可 以 来 尝试 某 些 命令 了 。 在 终端 中 输入 下 列 命令 
(除了 美元 符号 )， 然 后 按 下 回 车 键 : 


$ pwd 
/home/vagrant 


这 个 命令 很 简单 ， 只 包含 单个 命令 行 工 具 。 命 令 行 工 具 pwd (Meyering, 2012) 用 于 打印 
出 当前 所 在 目录 的 名 字 。 上 默认 情况 下 ， 这 就 是 你 全 录 进 入 的 主 目录 。 可 以 用 ls (Stallman 
& MacKenzie，2012) 命令 来 查看 目录 的 内 容 : 


$ ls 
book 


使 用 Bash 内 置 的 命令 行 工具 cd， 可 以 进入 其 他 目录 : 


$ cd book/ch02/ 

$ cd data 

$ pwd 
/home/vagrant/book/ch02/data 
$ cd .. 

$ pwd 
/home/vagrant/book/ch02/ 


cd 后 面 的 部 分 指定 想 要 进入 的 目录 。 紧 跟 在 命令 后 面 的 值 称 为 命令 行 参数 或 选项 。 两 个 点 
指 的 是 父 目录 。 让 我 们 再 尝试 男 一 条 命令 : 


$ head -n 3 data/movies.txt 
Matrix 

Star Wars 

Home Alone 


这 里 向 head 命令 (MacKenzie & Meyering, 2012) 传递 了 三 个 命令 行 参数 。 第 一 个 参数 是 
选项 ， 第 二 个 是 该 选项 的 值 ， 第 三 个 是 文件 名 。 这 条 命令 输出 文件 ~book/ch02/data/movies. 
txt 的 前 三 行 。 


有 时 使 用 的 命令 和 管道 大 长 ， 无 法 在 页 面 中 显示 完整 。 这 时 ， 你 会 看 到 类 似 下 面 的 情况 : 


$ echo 'Hello'\ 

> ' world' | 

> wc 
大 于 符号 (>) 是 继续 提示 符 ， 意 味 着 这 一 行 是 前 一 行 的 继续 。 长 命令 可 以 用 反 斜 杠 (A) 
或 管道 符号 (|) 分 割 开 。 一 定 要 首先 匹配 所 有 标 有 "和 ' 的 引用 。 下 列 命令 就 与 前 面 的 命 


令 完 全 相同 。 


$ echo 'Hello world' | wc 


2.3.3 五 类 命令 行 工 具 
前 面 大 量 使 用 “命令 行 工 具 ” 这 个 术语 ， 但 还 没有 解释 它 的 实际 含义 。 实 际 上 ， 我 们 用 它 
统称 从 命令 行 执行 的 任何 东西 。 具 体 而 言 ， 命 令 行 工 具 都 可 以 归属 为 下 列 五 种 类 型 . 


。 二 进 制 可 执行 文件 

。 shell 内 置 命令 

。 解释 型 脚本 

* shell 函数 

。 别名 

了 解 不 同类 型 间 的 差异 是 有 好 处 的 。 数 据 科学 工具 箱 中 预 安装 的 命令 行 工 具 大 多 属于 前 两 
类 (二进制 可 执行 文件 和 shell 内 置 命令 )。 甚 他 三 类 (解释 型 脚本 、shell 函数 和 别名 ) 可 
以 进一步 增强 我 们 自己 的 数据 科学 工具 箱  ， 帮 助 我 们 成 为 更 加 高 效 和 多 产 的 数据 科学 家 。 


。 二 进 制 可 执行 文件 
二 进 制 可 执行 文件 是 传统 意义 上 的 程序 。 它 是 由 源 代码 编译 为 机 器 代码 而 成 的 。 这 意味 
着 在 文本 编辑 器 中 打开 这 类 文件 时 ， 你 无 法 看 到 其 源 代码 。 


。 shell 内 置 命令 
shell 内 置 命令 是 由 shell 提供 的 命令 行 工 具 ， 本 书 中 是 由 Bash 提供 的 。cd 和 help 就 是 
其 中 的 例子 。 它 们 是 无 法 更 改 的 。 不 同 shell 的 内 置 命令 可 能 有 差异 。 与 二 进 制 可 执行 
文件 类 似 ， 它 们 都 难以 被 直接 查看 或 修改 。 


注 1: 这 里 指 的 不 是 字面 上 的 数据 科学 工具 箱 ， 而 是 用 比喻 的 方式 说 明 要 有 自己 的 工具 集 。 
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解释 型 脚本 

解释 型 脚本 是 由 二 进 制 可 执行 文件 所 执行 的 文本 文件 ， 例 如 Python、R 和 Bash 脚本 。 
解释 型 脚本 的 一 个 很 大 的 优点 是 你 可 以 读 懂 和 修改 它 。 示 例 2-3 展示 了 名 为 ~/book/ 
ch02/fac.py 的 脚本 。 它 是 由 Python 解释 的 ， 这 并 不 是 因为 它 的 文件 扩展 名 是 .py， 而 是 
由 于 脚本 的 第 一 行 指定 了 执行 它 的 二 进 制 可 执行 文件 。 


示例 2-3 ”计算 整数 阶乘 的 Python 脚本 (~/book/ch02/fac.py) 
#!/usr/bin/env python 
def factorial(x): 
result = 1 
for i in xrange(2, x + 1): 
result *- i 
return result 


if | name == "__main__": 
import sys 
x = int(sys.argv[1]) 
print factorial(x) 


该 脚本 计算 一 个 整数 的 阶乘 ， 这 个 整数 是 传递 的 命令 行 参 数 。 可 以 通过 下 列 方式 在 命令 
行 中 调用 该 脚本 : 


$ book/ch02/fac.py 5 
120 


第 4 章 将 详尽 讨论 怎样 使 用 解释 型 脚本 来 创建 可 重用 的 命令 行 工具 。 


shell && žk 

shell 国 数 是 由 shell 自己 执行 的 函数 ， 在 本 书 中 就 是 由 Bash 执行 的 。 它 们 提供 了 与 
Bash 脚本 相似 的 功能 ， 但 通常 (尽管 不 是 必然 的 ) 比 脚本 小 一 些 ， 也 更 趋 于 个 人 化 。 
下 列 命令 定义 了 一 个 称 为 fac 的 函数 ， 与 前 文 的 Python 解释 型 脚本 类 似 ， 用 于 计算 作 
为 参数 传递 给 函数 的 某 个 整数 的 阶乘 。 具 体 而 言 ， 该 函数 使 用 seq 来 生成 一 串 数 字 ， 用 
paste (Ihnat & MacKenzie, 2012) 将 这 些 数字 放 到 一 行 中 并 用 * 分 隔 开 ， 然 后 将 这 个 
等 式 传 递 给 bc (Nelson，2006)， 由 它 求 值 并 输出 结果 : 


$ fac() { (echo 1; seq $1) | paste -s -d\* | bc; } 
$ fac 5 
120 


文件 ~/.bashrc 是 Bash 的 配置 文件 ， 它 是 定义 shell 函数 的 好 地 方 ， 这 样 shell 函数 就 随 
时 可 用 。 


别名 
别名 与 宏 类 似 。 如 果 你 发 现 自己 经 常 要 用 相同 (或 一 部 分 相同 ) 的 参数 执行 一 个 特定 的 
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命令 ， 那 就 可 以 为 此 定义 一 个 别名 。 在 你 总 是 拼 错 特定 命令 时 ， 别 名 也 很 有 用 (在 该 命 
令 的 GitHub 配置 文件 https://github.com/chrishwiggins/mise/blob/master/sh/aliases-public.sh 
中 ， 你 可 以 看 到 一 个 很 长 的 清单 ， 列 出 了 许多 有 用 的 别名 )。 下 列 命令 定义 了 两 个 别名 : 


$ alias l='ls -1 --group-directories-first' 
$ alias moer=more 


现在 ， 如 果 你 在 命令 行 中 进行 如 下 输入 ，shell 将 把 它 找到 的 每 个 别名 替换 为 对 应 的 值 : 


别名 要 比 shell 函数 简单 一 些 ， 因 为 它们 没有 参数 。 函 数 fac 无 法 用 别名 来 定义 ， 因 为 


它 有 参数 。 别 名 还 能 使 你 大 量 减 少 敲 击 键盘 的 次 数 。 类 似 于 shell 函数 ， 别 名 经 常 是 在 


主 目录 中 的 .bashrc 或 .bash_aliases 配置 文件 中 定义 的 。 要 看 当前 定义 的 所 有 别名 ,不 


带 参 数 地 运行 aLias 即 可 。 试 一 下 ， 看 看 会 发 生 什么 ? 


本 书 中 ， 当 提 到 创建 新 的 命令 行 工 具 时 ， 我 们 主要 关注 后 三 种 类 型 : 解释 型 脚本 、shell ER 
数 和 别名 。 这 是 因为 它们 易于 修改 。 命 令 行 工具 的 作用 是 使 你 用 命令 行 工作 起 来 更 轻松 ， 
成 为 更 加 多 产 和 高 效 的 数据 科学 家 。 你 可 以 使 用 type ( 它 本 身 就 是 一 个 shell 内 置 命 令 ) 


来 查看 命令 行 工 具 的 类 型 : 


$ type -a pwd 

pwd is a shell builtin 
pwd is /bin/pwd 

$ type -a cd 

cd is a shell builtin 
$ type -a fac 

fac is a function 

fac () 


( echo 1; 
seq $1 ) | paste -s -d\* | bc 


$ type -a l 
l is aliased to `ls -1 --group-directories-first' 


如 你 所 见 ，type 对 pwd 返回 了 两 个 命令 行 工具 。 第 一 个 描述 的 是 输入 pwd 时 所 使 用 的 命令 


行 工具 。 下 一 节 ， 我 们 来 看 看 怎样 将 命令 行 工 具 组 合 起 来 。 


多 数 命令 行 工具 遵循 Unix 哲学 ， 即 只 做 一 件 事情 ， 并 且 做 得 十 分 


Hé. lan, METIE 


Ħ grep (Meyering, 2012) 对 行进 行 过 滤 ， wc (Rubin & MacKenzie, 2012) 计算 行 数 ， 


sort (Haertel & Eggert, 2012) 对 行进 行 排序 。 命 令 行 的 力量 在 于 它 能 将 这 些小 而 强大 的 
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命令 行 工具 组 合 起 来 。 最 常见 的 方式 是 通过 管道 进行 组 合 。 一 个 工具 的 输出 传递 给 下 一 个 
工具 ,i i ee 


例如 ， 考 虑 命令 行 工 具 seq， 该 工具 生成 一 个 数字 序列 。 让 我 们 生成 5 个 数字 的 序列 : 


默认 情况 下 ， 命 令 行 工 具 的 输出 是 传递 给 终端 的 ， 由 终端 显示 在 显示 器 屏幕 上 。 我 们 可 以 
将 seq 的 输出 通过 管道 传递 给 下 一 个 称 为 grep 的 工具 ， 它 用 来 对 行进 行 过 滤 。 假 设 我 们 只 
想 看 到 包含 3 的 数字 ， 可 以 用 如 下 方式 将 seq 和 grep 组 合 起 来 : 


$ seq 30 | grep 3 


如 果 想 要 知道 1 和 100 之 间 有 多 少数 字 包 含 3， 可 以 使 用 wc， 它 特别 擅长 计数 : 


$ seq 100 | grep 3 | wc -1 
19 


选项 -1 指定 了 wc 只 输出 行 的 数量 。 默 认 情 况 下 wc 还 返回 字符 和 单词 的 数量 。 


你 可 能 开始 认识 到 组 合 命令 行 工具 是 一 个 非常 强大 的 概念 。 后 面 ， 我 们 将 向 你 介绍 更 多 的 
工具 ， 以 及 将 它们 组 合 起 来 能 提供 什么 功能 


2.3.5 ”输入 和 输出 重 定向 
我 们 曾经 提 到 过 ， 默 认 情况 下 ， 管 道中 最 后 一 个 命令 行 工具 是 输出 到 终端 的 。 你 也 可 以 将 
这 个 输出 保存 到 文件 中 。 这 称 为 输出 重 定向 ， 通 过 如 下 方式 进行 : 


$ cd -/book/ch02 
$ seq 10 » data/ten-numbers 


这 里 ， 我 们 将 seq 工具 的 输出 保存 到 目录 ~/book/ch02/data 中 名 为 ten-numbers 的 文件 中 。 
如 果 这 个 文件 不 存在 ， 就 会 新 创建 出 来 ， 如 果 文 件 已 经 存在 ， 它 的 内 容 将 会 被 覆盖 。 也 可 
以 用 >> 将 输出 附加 到 文件 未 尾 ， 意 思 是 将 输出 附加 到 原来 内 容 的 后 面 : 


$ echo -n "Hello" > hello-world 
$ echo " World" >> hello-world 


工具 echo 只 是 输出 指定 的 值 。 选 项 -n 指定 echo 不 要 输出 尾部 新 行 。 


如 果 你 需要 存储 中 间 结 果 (例如 用 来 在 后 面 的 阶段 继续 进行 分 析 ) ， 将 输出 保存 到 文件 中 
会 很 有 用 。 要 使 用 文件 hello-world 的 内 容 ， 可 以 用 cat (Granlund & Stallman, 2012) 来 
读 取 文件 并 显示 出 来 : 


$ cat hello-world | wc -w 
2 


(注意 ， 选 项 -w 表 明 wc 只 计算 单词 的 数量 。) 也 可 以 用 下 列 记号 获得 相同 的 结果 : 


$ < hello-world wc -w 
2 


这 样 ， 不 需要 运行 一 个 额外 的 进程 就 可 以 直接 将 文件 传递 给 wc 的 标准 输入 。 如 果 命 令 行 
工具 还 允许 将 文件 指定 为 命令 行 参数 (事实 上 许多 工具 都 是 这 样 的 )， 还 可 以 这 样 运行 wc: 


~ 


$ wc -w hello-world 
2 hello-world 


2.3.6 处理 文件 

作为 数据 科学 家 ， 我 们 的 工作 对 象 是 大 量 数据 ， 它 们 通常 存储 在 文件 之 中 。 因 此 ， 知 道 怎 
样 用 命令 行 来 处 理 文件 (以 及 文件 所 在 的 目录 ) 是 很 重要 的 。 用 图 形 用 户 界面 能 做 的 任何 
操作 ， 都 可 以 用 命令 行 工 具 来 完成 (而 且 能 做 到 更 多 )。 本 节 我 们 将 介绍 最 重要 的 几 个 操 
作 ， 即 对 文件 和 目录 进行 创建 、 移 动 、 复 制 、 重 命名 和 删除 。 


你 已 经 知道 了 怎样 用 > >> 来 对 输出 进行 重 定向 ， 从 而 创建 新 文件 。 如 果 需 要 将 文件 移 
动 到 其 他 目录 ， 可 以 使 用 mv (Parker, MacKenzie & Meyering, 2012) : 


$ mv hello-world data 
也 可 以 用 mv 将 文件 重 命 名 : 


$ cd data 
$ mv hello-world old-file 


还 可 以 重 命名 或 移动 整个 目 孙 。 如 果 不 再 需要 某 个 文件 ， 可 以 用 rm (Rubin, MacKenzie, 
Stallman & Meyering，2012) 删除 (或 移 除 ) 它 : 


$ rm old-file 


如 果 想 要 删除 整个 目录 及 其 包含 的 全 部 内 容 ， 那 就 指定 选项 -r, 意 为 递归 删除 : 


$ rm -r ~/book/ch02/data/old 


入 门 指南 | 23 


如 果 想 复制 文件 ， 使 用 cp (Granlund, MacKenzie & Meyering，2012)。 这 在 创建 备份 时 很 
AM: 


$ cp server.log server.log.bak 


可 以 使 用 mkdir (MacKenzie, 2012) 创建 目录 : 


$ cd data 
$ mkdir logs 


所 有 这 些 命令 行 工具 都 接受 选项 -v， 意 为 “详细 ” (verbose), ， 能 使 工具 输出 正在 进行 的 动 
作 。 除 了 mkdir 之 外 的 其 他 所 有 工具 都 接受 选项 -1t， 意 为 “交互 ”(interactive) ， 能 让 工具 
向 你 请 求 确认 。 


刚 开始 使 用 命令 行 工 具 来 管理 文件 可 能 会 令 你 望 而 生 恨 ， 这 是 因为 对 文件 系统 缺少 图 形 化 
的 总 体 印象 ， 会 导致 你 无 法 提供 直接 的 反馈 。 


2.3.7 寻求 帮助 

在 命令 行 的 学 习 中 上 下 求索 时 ， 你 有 时 可 能 需要 帮助 。 有 时 ， 即 使 最 老 到 的 Linux 用 户 也 
会 需要 帮助 。 记 住所 有 的 命令 行 工具 及 所 有 选项 显然 是 不 可 能 的 。 幸 好 ， 命 令 行 提供 了 几 
种 方法 来 获取 帮助 。 


获取 帮助 最 重要 的 命令 可 能 就 是 man (Eaton & Watson, 2014) 了 ， 它 是 “manual” 的 缩 
写 ， 包 含 了 绝 大 多 数 命令 行 工具 的 信息 。 假 设 我 们 忘记 了 工具 cat 的 各 种 选项 ， 可 以 使 用 
下 列 命 令 来 访问 它 的 操作 说 明 页 面 (Man Page) : 


$ man cat | head -n 20 
CAT(1) User Commands CAT(1) 


NAME 
cat - concatenate files and print on the standard output 


SYNOPSIS 
cat [OPTION]... [FILE]... 


DESCRIPTION 
Concatenate FILE(s), or standard input, to standard output. 


-A, --show-all 
equivalent to -vET 


-b, --number-nonblank 
number nonempty output lines, overrides -n 


-e equivalent to -vE 


有 时 你 会 发 现 我 们 在 命令 的 未 尾 使 用 head, fold 或 cut。 这 只 是 为 了 确保 合 
令 的 输出 适合 页 面 宽度 ， 你 不 需要 键入 它们 。 例 如 ，head -n 5 是 只 显示 前 5 
Hi. fold 将 较 长 的 行 变 为 80 字符 长 度 ，cut -c1-80 则 裁剪 长 度 超过 80 字符 
的 行 。 


不 是 所 有 的 命令 行 工具 都 有 操作 说 明 页 面 。 对 于 像 cd 这 样 的 shell 内 置 命 令 ， 需 要 使 用 


help 命令 行 工具 : 


$ help cd | head -n 20 
cd: cd [-LI[-P [-e]] [-@]] [dir] 
Change the shell working directory. 


Change the current directory to DIR. The default DIR is the value of the 
HOME shell variable. 


The variable CDPATH defines the search path for the directory containing 

DIR. Alternative directory names in CDPATH are separated by a colon (:). 

A null directory name is the same as the current directory. If DIR begins 
with a slash (/), then CDPATH is not used. 


If the directory is not found, and the shell option 'cdable vars' is set, 
the word is assumed to be a variable name. If that variable has a value, 
its value is used for DIR. 


Options: 
-L force symbolic links to be followed: resolve symbolic links in 
DIR after processing instances of '..' 
-P use the physical directory structure without following symbolic 


links: resolve symbolic links in DIR before processing instances 


help 还 涉及 Bash 的 其 他 主题 ， 如 果 你 感 兴趣 ， 可 以 不 带 命令 行 参数 尝试 hetp 命令 ， 看 一 
下 列 出 主题 的 清单 。 


一 些 命令 行使 用 的 新 工具 也 经 常 缺 少 操作 说 明 页 面 。 这 时 候 ， 最 好 的 办 法 就 是 用 -h 或 
--help 选项 来 调用 help 工具 。 例 如 : 


jq --help 


jq - commandline JSON processor [version 1.4] 
Usage: jq [options] <jq filter> [file...] 


For a description of the command line options and 
how to write jq filters (and why you might want to) 
see the jq manpage, or the online documentation at 
http: //stedolan.github.com/jq 


指定 --help 选项 对 cat 这 样 的 GNU 命令 行 工具 也 管用 。 不 过 ， 对 应 的 操作 说 明 页 面 通 党 
会 提供 更 多 的 信息 。 如 果 堂 试 了 这 三 个 方法 ， 你 仍然 无 计 可 施 ， 则 最 好 是 向 互联 网 求助 。 
附录 A 中 列 出 了 书 中 使 用 的 所 有 命令 行 工具 ， 甚 中 除了 有 命令 行 工 具 的 安装 指导 ， 还 有 寻 
求 帮 助 的 方法 。 
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第 3 章 


数据 获取 


本 章 介 绍 OSEMN 模型 的 第 一 个 步骤 : 数据 获取 。 毕 竟 ， 没 有 数据 就 没有 多 少数 据 科学 工 
作 可 做 。 这 里 我 们 假定 ， 解 决 数据 科学 问题 所 需 的 数据 已 经 以 某 种 形式 存在 于 某 个 地 方 。 
我 们 的 目标 是 将 这 些 数 据 以 我 们 能 处 理 的 形式 放 入 计算 机 (或 数据 科学 工具 箱 )。 

按照 Unix 哲学 ， 文 本 是 通用 的 接口 。 几 乎 所 有 的 命令 行 工具 都 或 者 接受 文本 输入 ， 或 者 
产生 文本 输出 ， 或 者 两 者 兼 具 。 这 就 是 多 个 命令 行 工具 能 够 集聚 一 起 协作 的 主要 原因 。 不 
过 ， 我 们 将 会 看 到 ， 即 使 是 文本 也 可 能 有 多 种 形式 。 

数据 获取 有 多 种 途径 ， 例 如 从 服务 器 中 下 载 、 查 询 数据 库 ， 或 者 连接 Web API。 有 时 数 
据 是 压缩 形式 或 者 二 进 制 格式 的 (例如 微软 Excel) 。 本 章 中 ， 我 们 讨论 能 用 命令 行 来 帮 
助 解决 这 些 问 题 的 几 个 工具 ， 包 括 : curl (Stenberg, 2012), in2csv (Groskopf, 2014), 
sql2csv (Groskopf, 2014) 和 tar (Bailey, Eggert & Poznyakoff, 2014), 


3.1 概述 


本 章 将 学 习 ， 


。 从 互联 网 下 载 数据 

。 查询 数据 库 

。 连接 Web API 

。 解压 缩 文 件 

。 将 微软 Excel 电子 表格 转换 为 可 用 的 数据 
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3.2 将 本 地 文件 复制 到 数据 科学 工具 箱 


pe 
一 种 常见 的 情况 是 你 的 计算 机 上 已 经 有 了 必要 的 文件 。 本 市 介绍 怎样 将 这 些 文件 放 和 本 地 
或 远程 的 数据 科学 工具 箱 。 


3.2.1 本 地 数据 科学 工具 箱 

在 第 2 章 我 们 曾经 提 到 ， 本 地 数据 科学 工具 箱 是 一 个 隔离 的 虚拟 环境 。 幸 好 还 有 一 个 例 
外 : 可 以 将 文件 传 入 或 传 出 数据 科学 工具 箱 。 运 行 vagrant up 时 你 所 在 的 本 地 目录 (也 
就 是 包含 文件 Vagrantfile 的 目录 ) 会 映射 到 数据 科学 工具 箱 的 一 个 目录 。 该 目录 称 
为 /vagrant (注意 这 不 是 你 的 主 目录 )。 让 我 们 来 看 一 下 它 的 内 容 : 


$ ls -1 /vagrant 
Vagrantfile 


如 果 你 在 本 地 计算 机 上 有 一 个 文件 ， 并 且 想 要 用 某 些 命令 行 工具 对 它 进行 处 理 ， 只 需 将 这 
个 文件 复制 或 移动 到 该 目录 。 假 设 你 的 计算 机 桌面 上 有 一 个 名 为 logs.csv 的 文件 。 如 果 你 
运行 的 是 GUN/Linux 或 Mac OS X 系统 ， 那 就 在 操作 系统 (不 是 在 数据 科学 工具 箱 ) 中 进 
入 包含 Vagrantfile 的 目录 ， 并 执行 下 列 命令 : 


$ cp ~/Desktop/logs.csv . 
如 果 使 用 的 是 Windows 系统 ， 可 以 在 命令 提示 符 或 PowerShell 上 运行 下 列 命令 : 


> cd %UserProfile%\Desktop 
> copy logs.csv MyDataScienceToolbox| 


也 可 以 使 用 Windows 资源 管理 器 将 文件 拖 搜 到 该 目录 。 


现在 该 文件 就 位 于 目录 /vagrant 中 了 。 将 数据 放 到 一 个 单独 的 目录 中 (这 里 我 们 使 用 ~/ 
book/ch03/data) 是 一 个 好 想法 。 因 此 ， 在 复制 文件 之 后 ， 可 以 用 下 列 命令 来 移动 它 : 


$ mv /vagrant/logs.csv -/book/ch03/data 


3.2.2 ”远程 数据 科学 工具 箱 


如 果 你 运行 的 是 Linux 或 Mae OS X 系统， 可 以 使 用 scp (Rinne & Ylonen，2014) ， 意 为 
“安全 复制 ”(secure copy)， 将 文件 复制 到 EC2 实例 上 。 这 时 需要 一 个 密 钥 对 文件 ， 就 是 


你 登录 运行 着 数据 科学 工具 箱 的 EC2 实例 时 用 到 的 密 钥 对 文件 : 


$ scp -i mykey.pem ~/Desktop/logs.csv \ 
> ubuntu@ec2-184-73-72-150.compute-1.amazonaws.com:data 


将 例子 中 的 主机 名 (@ 和 : 之 间 的 部 分 ) 替换 为 你 在 AWS 控制 台 的 EC2 概述 页 面 上 看 到 
的 值 。 


3.3 解压 缩 文件 


如 果 原 始 的 数据 集 非常 巨大 ， 或 者 包含 了 许多 文件 ， 那 么 这 个 文件 可 能 是 (压缩 的 ) 归档 
文件 。 包 含 许多 重复 值 (例如 文本 文件 中 的 单词 或 JSON 文件 中 的 key) 的 数据 集 特别 适 
合 压缩 。 


压缩 归档 文件 的 常见 扩展 名 是 : .tar.gz、.zip 和 .rar。 如 果 要 解压 缩 ， 应 分 别 使 用 命令 行 工 
具 tar (Bailey, Eggert & Poznyakoff, 2014), unzip (Smith, 2009) 和 unrar (Asselstine, 
Scheurer & Winkelmann，2014)。 另 外 ， 还 有 一 些 不 太 常 见 的 文件 扩展 名 ， 需 要 使 用 其 他 
工具 来 解压 缩 。 举 例 来 说 ， 提 取 名 为 logs.tar.gz 的 文件 ， 应 使 用 : 


$ cd -/book/ch03 
$ tar -xzvf data/logs.tar.gz 


tar 的 繁琐 的 选项 确实 令 人 头疼 。 上 面 的 例子 中 ， 四 个 选项 x、z、v 和 ff 指定 了 tar 应 从 
归档 文件 中 提取 数据 ， 使 用 gzip 作为 解压 算法 ， 使 用 详细 模式 (verbose)， 使 用 文件 logs. 
tar.gz。 假 以 时 日 ， 你 会 习惯 于 输入 这 四 个 选项 字符 ,但 其 实 还 有 更 加 简便 的 方式 。 


使 用 称 为 unpack (Brisbin, 2013) 的 便捷 脚本 ， 无 需 记 住 不 同 的 命令 行 工具 及 其 选项 ， 就 
可 以 解压 缩 许多 不 同 格式 的 文件 。unpack 通过 查看 要 解压 缩 的 文件 扩展 名 ， 调 用 相应 的 合 
令 行 工具 。 


unpack 工具 包含 在 了 数据 科学 工具 箱 中 。 请 记 住 可 以 在 附录 A 中 查阅 它 的 安装 方法 。 示 例 
3-1 展示 了 unpack 的 源 代码 。 虽 然 Bash 脚本 编程 并 不 是 本 书 关注 的 焦点 ， 但 是 花 一 点 时 
间 理 解 它 是 如 何 运行 的 还 是 有 用 的 。 


示例 3-1 ”解压 缩 各 种 文件 格式 (unpack) 


#!/usr/bin/env bash 
# unpack: Extract common file formats 


# Display usage if no parameters given 
if [[ -z "$@" ]]; then 
echo " ${0##*/} «archive» - extract common file formats)" 
exit 
fi 


X Required program(s) 
req_progs=(7z unrar unzip) 
for p in ${req_progs[@]}; do 
hash "Sp" 2>&- || V 
{ echo >&2 " Required program \"Sp\" not installed."; exit 1; } 
done 


# Test if file exists 
if [ ! -f "SQ" ]; then 
echo "File "SQ" doesn't exist" 
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exit 
fi 


X Extract file by using extension as reference 
case "SQ" in 
*.7z ) 7z x "SQ" 53 
tar.bz2 ) tar xvjf "SQ" ;; 
bz2 ) bunzip2 "SQ" ;; 
deb ) ar vx "SQ" ;; 
tar.gz ) tar xvf "$Q" ;; 
gz ) gunzip "SQ" ;; 
tar ) tar xvf "Sq" ;; 
tbz2 ) tar xvjf "Sq" ;; 
tar.xz ) tar xvf "$Q" ;; 
tgz ) tar xvzf "SQ" ;; 
rar ) unrar x "SQ" ;; 
.zip ) unzip "$Q" ;; 
.Z ) uncompress "$Q" ;; 
) echo " Unsupported file format" ;; 


XR OR ORO OR OR OR OR HF RS + + 


+ 


esac 


现在 ， 对 同样 的 文件 解压 缩 ， 只 需要 使 用 ， 


$ unpack logs.tar.gz 


3.4 微软 Excel 电 子 表 格 的 转换 


对 许多 人 来 说 ， 微 软 Excel 提供 了 一 种 直观 地 处 理 和 计算 小 规模 数据 集 的 方式 。 因 此 ， 大 
量 数据 都 以 微软 Excel 电子 表格 的 形式 呈现 。 根 据 其 文件 扩展 名 的 不 同 ， 这 些 电子 表格 存 
储 在 专 有 的 二 进 制 格式 文件 (xls) 或 压缩 XML 的 文件 集合 (xlsx) 中 。 这 两 种 情况 下 ， 
多 数 命 令 行 工 具 都 不 能 直接 使 用 这 些 数 据 。 如 果 仅 仅 因为 数据 以 这 种 方式 存储 ， 就 无 法 使 
用 这 些 宝 贵 的 数据 集 ， 那 就 太 遗 憾 了 。 

幸好 有 一 个 称 为 in2csv (Groskopf, 2014) 的 命令 行 工 具 ， 能 够 将 微软 Excel 电子 表格 转 
换 为 CSV X ft, CSV 代表 用 逗号 分 隔 开 的 值 或 字符 分 隔 开 的 值 。 使 用 CSV IT RELL Be eR 
手 ， 因 为 它 缺 少 形 式 化 规范 。、RFC 4180 (http://www.ietf.org/rfc/rfc4180.txt) 基于 以 下 三 点 
定义 CSV 格式 。 


(D 每 条 记录 占据 独立 一 行 ， 由 换行 符 (CRLF) 分 隔 开 。 例 如 : 


aaa,bbb,ccc CRLF 
ZZZ,yyy,Xxx CRLF 


(2) SCPE rp l)e — AR loe TC ERAT REI. DAR 


aaa,bbb,ccc CRLF 
ZZZ,YYY , XXX 


(3) 在 文件 的 首 行 可 以 有 标题 行 (可 选 的 ) ， 甚 格式 与 普通 记录 行 相同 。 标 题 行 要 包含 文件 
中 对 应 字段 的 名 字 ， 字 段 数量 还 应 与 文件 中 其 他 记录 相同 (是否 存 在 标题 行 应 由 该 文件 的 
MIME 类 型 的 可 选 的 header 参数 来 指定 )。 例 如 : 


field name,field name,field name CRLF 
aaa,bbb,ccc CRLF 
ZZZ,yyy,Xxx CRLF 


让 我 们 使 用 由 互联 网 电影 数据 库 (Internet Movie Database, IMDb) 中 的 前 250 部 电影 构 
成 的 电子 表格 来 说 明 in2csv。 这 个 文件 名 为 imdb-250.x.sx， 可 从 http://www.overthinkingit. 
com/2011/10/11/imdb-top-250-movies-4th-edition/2/ 下 载 。 使 用 如 下 方式 调用 in2csv， 抽 取 
其 中 的 数据 : 


$ cd -/book/ch03 
$ in2csv data/imdb-250.xlsx » data/imdb-250.csv 


这 种 情况 下 ， 扩 展 名 .xlsx 自动 确定 了 文件 的 格式 。 如 果 我 们 要 用 管道 把 数据 输入 in2csv， 
就 必须 显 式 地 指定 格式 。 让 我 们 看 一 下 数据 : 


$ in2csv data/imdb-250.xlsx | head | cut -c1-80 

Title,title trim,Year,Rank,Rank (desc),Rating,New in 2011 from 2010?,2010 rank,R 
Sherlock Jr. (1924),SherlockIr. (1924) ,1924,221,30,8,y,n/a,n/a, 

The Passion of Joan of Arc (1928), ThePassionofJoanofArc(1928) ,1928,212,39,8,y,n/ 
His Girl Friday (1940) ,HisGirlFriday(1940) ,1940,250,1,8,y,n/a,n/a, 

Tokyo Story (1953), TokyoStory(1953) ,1953,248,3,8,y,n/a,n/a, 

The Man Who Shot Liberty Valance (1962), TheManWhoShotLibertyValance(1962) ,1962 ,2 
Persona (1966) ,Persona(1966) ,1966,200,51,8,y,n/a,n/a, 

Stalker (1979) ,Stalker(1979) ,1979,243,8,8,y,n/a,n/a, 

Fanny and Alexander (1982) ,FannyandAlexander (1982) ,1982,210,41,8,y,n/a,n/a, 
Beauty and the Beast (1991) ,BeautyandtheBeast(1991) ,1991,249,2,8,y,n/a,n/a, 


如 你 所 见 ， 上 默认 情况 下 CSV 是 不 易 阅 读 的 。 可 以 通过 管道 将 数据 输入 称 为 csvtook 的 工具 
(Groskopf，2014)， 它 会 令 人 满意 地 将 数据 格式 化 为 表格 。 这 里 ， 为 了 使 表格 适合 页 面 宽 
度 ， 我 们 使 用 csvcut 来 显示 一 部 分 列 。 


$ in2csv data/imdb-250.xlsx | head | csvcut -c Title,Year,Rating | csvlook 


|- I0 +------ +--------- | 
| Title | Year | Rating | 
| 0. +------ +--------- | 
| Sherlock Jr. (1924) | 1924 | 8 | 
| The Passion of Joan of Arc (1928) | 1928 | 8 | 
| His Girl Friday (1940) | 1940 | 8 | 
| Tokyo Story (1953) | 1953 | 8 | 
| The Man Who Shot Liberty Valance (1962) | 1962 | 8 | 
| Persona (1966) | 1966 | 8 | 
| Stalker (1979) | 1979 | 8 | 
| Fanny and Alexander (1982) | 1982 | 8 | 
| Beauty and the Beast (1991) | 1991 | 8 | 
|-II 0 +------ +--------- | 
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电子 表格 可 能 包含 多 个 工作 表 。in2csv 默认 提取 第 一 张 工作 表 。 要 提取 另 一 张 工作 表 ， 需 
要 将 表 名 传递 给 - -sheet 选项 。 


工具 in2csv, csvcut 和 csvlook 实际 上 都 是 Csvkit 的 成 员 ，Csvkit 是 处 理 CSV 数据 的 命 
令 行 工具 集 。 它 包含 了 许多 重要 的 工具 ， 在 本 书 中 将 经 常用 到 。 如 果 你 正在 使 用 数据 科学 
工具 箱 ， 那 就 已 经 安装 了 Csvkit。 否 则 ， 请 参考 附录 A 的 说 明 来 安装 它 。 


in2csv 之 外 的 另 一 种 方法 是 ， 用 微软 Excel 或 开源 电子 表格 程序 (例如 
LibreOffice Calc) 打开 电子 表格 ， 然 后 手工 将 其 导出 为 CSV 文件 。 这 是 一 次 
性 的 解决 方法 ， 其 缺点 是 不 易 扩展 到 多 个 文件 ， 也 不 能 自动 化 。 更 何况 ， 当 
你 使 用 远程 服务 器 上 的 命令 行 时 ， 很 可 能 找 不 到 这 样 的 应 用 程序 。 


3.5 查询 关系 数据 库 

大 多 数 公司 将 数据 存储 在 关系 数据 库 中 。 关 系数 据 库 的 例子 包括 MySQL, PostgreSQL 和 
SQLite。 这 些 数 据 库 各 有 着 些许 不 同 的 交互 方式 。 有 的 提供 命令 行 工具 或 命令 行 接口 ， 有 
的 则 不 提供 。 此 外 ， 它 们 的 用 法 和 输出 也 不 完全 一 致 。 


幸好 Csvkit 套件 中 有 一 个 称 为 sql2csv 的 命令 行 工 具 。 由 于 它 利用 了 Python SQLAlchemy 
软件 包 ， 只 需要 使 用 一 个 工具 就 可 以 在 许多 不 同 的 数据 库 上 执行 查询 ， 包 括 MySQL, 
Oracle、PostgreSQL、SQLite、 微 软 SQL Server 和 Sybase。 正 如 它 的 名 字 所 暗示 的 ， 
sql2csv 的 输出 是 CSV 格式 。 


可 以 通过 在 关系 数据 库 上 执行 SELECT 查询 来 获取 数据 。(sql2csv 也 支持 INSERT, UPDATE 
和 DELETE 查询 ， 但 这 不 属于 本 章 的 范围 。) 要 从 名 为 iris.db 的 SQLite 数据 库 中 选取 特定 的 
数据 集 ， 可 以 用 如 下 方式 调用 sql2csv; 


$ sql2csv --db 'sqlite:///data/iris.db' --query 'SELECT * FROM iris '\ 
» 'WHERE sepal length » 7.5' 

sepal length,sepal width,petal length,petal width,species 
7.6,3.0,6.6,2.1,Iris-virginica 


7.7,3.8,6.7,2.2,Iris-virginica 
7.7,2.6,6.9,2.3,Iris-virginica 
7.7,2.8,6.7,2.0,Iris-virginica 
7.9,3.8,6.4,2.0,Iris-virginica 
7.7,3.0,6.1,2.3,Iris-virginica 


里 ， 我 们 选择 了 sepal length 大 于 7.5 的 所 有 行 。--db 选项 指定 了 数据 库 的 URL, Hà 


形式 是 : dialect«driver://username:passwordQhost:port/database, 


ER ox 


3.6 ”从 互联 网 下 载 


毫 无 疑问 ， 互 联网 提供 了 最 大 的 数据 资源 。 这 些 数 据 呈 现 不 同 的 形式 ， 使 用 不 同 的 协议 。 
命令 行 工具 cURL (Stenberg, 2012) 可 被 视 为 用 命令 行 从 互联 网 下 载 数据 的 “瑞士 军刀 ”。 


Vy ua 


通过 浏览 器 访问 URL (Uniform Resource Locator， 统 一 资源 定位 器 ) 时 ， 所 下 载 的 数据 可 
以 得 到 解释 。 例 如 ，HTML 文件 呈现 为 网 站 ，MP3 文件 可 以 自动 播放 ，PDF 文件 可 以 由 阅 
读 器 自动 打开 。 但 是 ， 当 用 cURL 来 访问 URL 时 ， 数 据 被 原封 不 动 地 下 载 ， 然 后 交 给 标 
准 输出 显示 出 来 ， 最 后 可 以 由 其 他 命令 行 工 具 来 做 进一步 处 理 。 


调用 curl 最 简单 的 方法 是 仅 指 定 一 个 URL 作为 命令 行 的 参数 。 例 如 ， 要 从 十 腾 堡 计划 
(Project Gutenberg) 中 下 载 马克 吐 温 的 《 哈 克 贝 利 * 费 恩 历 险 记 》， 可 以 运行 如 下 命令 : 


$ curl -s http://www.gutenberg.org/cache/epub/76/pg76.txt | head -n 10 


The Project Gutenberg EBook of Adventures of Huckleberry Finn, Complete 
by Mark Twain (Samuel Clemens) 

This eBook is for the use of anyone anywhere at no cost and with almost 
no restrictions whatsoever. You may copy it, give it away or re-use 

it under the terms of the Project Gutenberg License included with this 
eBook or online at www.gutenberg.net 


默认 情况 下 ，curl 输出 一 个 进度 条 ， 显 示 下 载 速率 和 预期 的 完成 时 间 。 如 果 你 将 输出 直接 
通过 管道 连接 到 head 这 样 的 其 他 命令 行 工 具 ， 切 记 要 指定 -s (代表 silent) 选项 ， 这 样 就 
\ 会 显示 进度 条 。 以 下 列 命令 为 例 ， 将 其 输出 与 上 面 的 输出 作 比较 : 


T 


$ curl http: //www.gutenberg.org/cache/epub/76/pg76.txt | head -n 10 
% Total % Received % Xferd Average Speed Time Time Time Current 
Dload Upload Total Spent Left Speed 


0 0 9 0 9 0 0 Oe 


The Project Gutenberg EBook of Adventures of Huckleberry Finn, Complete 
by Mark Twain (Samuel Clemens) 


This eBook is for the use of anyone anywhere at no cost and with almost 
no restrictions whatsoever. You may copy it, give it away or re-use 

it under the terms of the Project Gutenberg License included with this 
eBook or online at www.gutenberg.net 


你 可 以 注意 到 ， 第 二 条 命令 的 输出 中 没有 关闭 进度 条 ， 因 此 包含 了 多 余 的 文本 其 至 错误 消 
息 。 如 果 将 这 样 的 数据 保存 到 文件 中 ， 那 就 不 必 指 定 -s 选项 : 


$ curl http://www.gutenberg.org/cache/epub/76/pg76.txt > data/finn.txt 


也 可 以 用 -o 选项 明确 地 指定 输出 文件 来 保存 数据 : 


$ curl -s http://www.gutenberg.org/cache/epub/76/pg76.txt -o data/finn.txt 
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从 互联 网 下 载 数据 时 ， 对 应 的 URL 最 可 能 使 用 HTTP 或 HTTPS 协议 。 如 果 要 从 FTP (X 
件 传输 协议 ) 服务 器 上 下 载 数据 ， 用 相同 的 方式 使 用 curl Bay, 24 URL 有 密码 保护 时 ， 
可 以 用 如 下 方式 指定 用 户 名 和 密码 : 


$ curl -u username:password ftp://host/file 
如 果 该 URL 是 一 个 目录 ，curl 会 将 目录 内 容 列 出 来 。 


如 果 访 问 的 是 简写 的 URL， 例 如 以 http:/bit/ly/ 或 http://t.co/ 作为 前 缀 的 URL， 浏 览 器 会 自动 
重 定向 到 正确 的 地 址 。 不 过 ， 如 果 使 用 curL， 就 需要 指定 -L 或 - -Location 选项 来 重 定向 : 


$ curl -L j.mp/locatbbar 
如 果 没 有 指定 -L 或 -Location 选项 ， 可 能 会 得 到 如 下 信息 : 


$ curl j.mp/locatbbar 

<html> 

<head> 

<title>bit.ly</title> 

</head> 

<body> 

<a href="http://en.wikipedia.org/wiki/List_of_countries_and_territories_by_bo 
rder/area_ratio">moved here</a> 

</body> 


如 果 指 定 -I 或 - -head LET, curl 就 只 获取 响应 信息 的 HTTP 头 部 数据 : 


$ curl -I j.mp/locatbbar 

HTTP/1.1 301 Moved Permanently 

Server: nginx 

Date: Wed, 21 May 2014 18:50:28 GMT 

Content-Type: text/html; charset-utf-8 

Connection: keep-alive 

Cache-Control: private; max-age-90 

Content-Length: 175 

Location: http://en.wikipedia.org/wiki/List of countries and territories by bo 
Mime-Version: 1.0 

Set-Cookie: _bit=537cf574-002ba-07d79-2e1cf10a;domain=.j.mp;expires=Mon Nov 17 


第 一 行 指 出 了 HTTP 状态 码 ， 这 里 是 301 (永久 移 除 )。 你 也 可 以 看 到 该 URL 重 定向 的 
地 HE: http://en.wikipedia.org/wiki/List_of_countries_and_territories_by_border/area_ratio, 在 
curl 没有 得 出 期 望 的 结果 时 ， 检 查 头 部 数据 并 龟 取 状态 码 是 一 个 有 用 的 调试 工具 。 其 他 常 
见 的 HTTP 状态 码 包 括 404. (未 找到 ) 和 403 (被 禁止 )。( 完 整 的 HTTP 状态 码 清单 ， 参 
见 维基 百科 : http://en.wikipedia.org/wiki/List of HTTP. status codes, ) 


总 结 本 节 的 内 容 ，cURL 是 从 互联 网 下 载 数据 的 简单 直接 的 命令 行 工具 。 它 最 常见 的 三 个 
选项 分 别 是 : 用 来 取消 进度 条 的 -<s、 指 定 用户 名 和 密码 的 -u， 以 及 自动 跟踪 重 定向 的 -L。 
更 多 信息 请 参见 其 操作 说 明 页 画 


lo 


A 
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3.7 调用 Web API 


上 一 市 我 们 解释 了 怎样 从 互联 网 下 载 单个 文件 。 从 互联 网 中 获取 数据 的 另 一 种 方法 是 通过 
Web API (Application Programming Interface， 应 用 程序 编程 接口 )。 各 种 组 织 所 提供 的 API 
的 数量 一 直 在 以 不 断 加 快 的 速度 增长 ， 这 意味 着 有 大 量 有 趣 的 数据 供 我 们 数据 科学 家 使 用 。 


Web API 并 不 会 像 网 站 那样 以 良好 的 布局 呈现 出 来 ， 而 是 大 多 以 JSON 或 XML 这 样 的 结 
构 化 形式 返回 数据 。 结 构 化 形式 的 数据 的 优势 在 于 易于 被 其 他 工具 〈 比 如 ja) 处 理 。 例 
AH, http://randomuser.me 的 API 以 下 列 JSON 结构 返回 数据 : 


Pe 


$ curl -s http://api.randomuser.me | jq 


{ 
"results": [ 
{ 
"version": "0.3.2", 
"seed": "1c5b868416387bf", 
"user": { 
"picture": "http://api.randomuser.me/0.3.2/portraits/women/2.jpg", 
"SSN": "972-79-4140", 
"cell": "(519)-135-8132", 
"phone": "(842)-322-2703", 
"dob": "64945368", 
"registered": "1136430654", 
"shai": "a3fed7d4f481fbd6845c0c5a19e4f1113cc977ed", 
"gender": "female", 
"name": { 
"last": "green", 
"first": "scarlett", 
"title": "miss" 
Ts 
"location": { 
"Zip": "43413", 
"state": "nevada", 
"city": "redding", 
"street": "8608 crescent canyon st" 
J; 
"email": "scarlett.green32@example.com", 
"username": "reddog82", 
"password": "ddddd", 
"salt": "AEKvMiS+", 
"md5": "f898fc73430cff8327b91ef6d538be5b" 
} 
} 
] 
} 


数据 通过 管道 进入 jq 命令 行 工具 ， 从 而 清晰 地 显示 出 来 。jq 还 有 许多 其 他 功能 ， 将 在 第 5 
章 深入 探讨 。 


有 的 Web API 以 流 的 形式 返回 数据 。 这 意味 着 一 旦 连接 了 API， 数 据 将 源源 不 断 地 到 达 。 
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一 个 著名 的 例子 是 Twitter firehose， 它 持续 不 断 地 返回 全 世界 发 送 的 推 文 (tweet) D. Æ 
好 我 们 使 用 的 大 多 数 命 令 行 工具 也 以 流 的 方式 运行 ， 因 此 我 们 也 可 以 使 用 这 类 数据 。 


有 的 API 需要 使 用 OAuth 协议 登录 。 有 一 个 称 为 curlicue (Foster, 2014) 的 简便 的 命令 
行 工具 ， 可 以 帮助 进行 所 谓 的 OAuth 握手 (OAuth dance)。 一 旦 握手 启动 ，curlicue 就 以 
正确 的 头 部 数据 来 调用 curL。 首 先 ， 你 要 用 curlicue-setup 对 特定 的 API 获取 授权 ， 然 后 
就 可 以 用 curlicue 调用 该 API。 例 如 ， 要 使 用 curlicue 从 Twitter API 获取 数据 ， 应 该 这 
样 做 : 


curlicue-setup \ 

'https://api.twitter.com/oauth/request token' V 
'https://api.twitter.com/oauth/authorize?oauth token-$oauth token' V 
'https://api.twitter.com/oauth/access token' \ 

credentials 

curlicue -f credentials V 
'https://api.twitter.com/1/statuses/home timeline.xml' 


V VV V VV dd 


对 付 更 加 流行 的 API， 有 专门 的 命令 行 工具 。 它 们 都 是 包装 器 (wrapper) ， 能 以 简便 的 方 
式 连接 API。 在 第 9 章 中 ， 我 们 将 使 用 命令 行 工 具 bigmler 来 连接 BigMI 的 预测 API. 


3.8 ”延伸 阅读 


* Molinaro, A. (2005). SOL Cookbook. O'Reilly Media. 
* Wikipedia. (2014). List of HTTP status codes. Retrieved May 10, 2014, from http:// 
en.wikipedia.org/wiki/List of HTTP. status codes. 
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创建 可 重用 的 命令 行 工具 


本 书 中 使 用 了 许多 基本 上 可 以 在 一 行内 写 下 的 命令 和 管道 (我 们 称 之 为 单行 ，one-liner) 。 
仅 使 用 单行 就 可 以 执行 复杂 任务 是 命令 行 之 所 以 强大 的 原因 所 在 。 与 编写 传统 计算 机 程序 
相 比 ， 使 用 单行 是 锭 然 不 同 的 体验 。 


有 的 任务 只 要 执行 一 次 ， 有 的 则 要 执行 多 次 。 有 的 任务 十 分 特殊 ， 有 的 则 很 普遍 。 如 果 你 
预料 到 或 注意 到 自己 需要 经 常 重复 使 用 某 个 单行 ， 那 就 值得 将 它 变 为 自己 的 命令 行 工 具 。 
单行 和 命令 行 工 具 都 有 各 自 的 用 武之 地 。 要 想 抓 住 机 会 需要 实践 和 技巧 。 命 令 行 工 具 的 优 
势 在 于 不 需要 你 记 住 整个 单行 ,并且 如 果 将 它 加 入 其 他 管道 能 够 提高 可 读 性 。 


使 用 编程 语言 的 好 处 在 于 程序 代码 是 存储 在 文件 中 的 。 这 意味 着 这 些 代码 易于 重用 。 如 果 
代码 带 有 参数 ， 其 至 可 以 将 其 用 于 具有 相似 模式 的 问题 中 。 


拥有 命令 行 工 具 真 的 是 两 全 其 美 : 既 可 以 在 命令 行 和 接受 参数 中 使 用 ， 又 只 需要 创建 一 
次 。 本 章 中 ， 我 们 将 用 两 种 方式 来 熟悉 怎样 创建 可 重用 的 命令 行 工 具 。 首 先 ， 解 释 怎样 将 
单行 转变 为 可 重用 的 命令 行 工具 。 通 过 向 命令 中 加 入 参数 ， 可 以 使 其 具备 与 程序 语言 相同 
的 灵活 性 。 然 后 ， 演 示 怎 样 从 已 经 用 程序 语言 编写 完毕 的 代码 开始 ， 创 建 可 重用 的 命令 行 
工具 。 按 照 Unix 哲学 ， 你 的 代码 可 以 与 其 他 命令 行 工 具 结合 起 来 ， 这 些 工 具 可 能 是 用 完 
全 不 同 的 程序 语言 编写 的 。 这 里 ， 我 们 将 关注 两 种 程序 语言 : Python M R, 


我 们 相信 ， 长 远 来 看 ， 创 建 可 重用 的 工具 会 使 你 成 为 更 加 高 效 和 多 产 的 数据 科学 家 。 你 
要 逐步 创建 自己 的 数据 科学 工具 箱 ， 以 便 从 中 提取 现 有 的 工具 ， 将 其 应 用 到 与 以 前 遇 到 的 
问题 类 似 的 新 问题 中 。 你 需要 实践 ， 才 有 能 力 抓 住 机 会 将 单行 或 已 有 代码 转变 为 命令 行 
工具 。 
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要 将 单行 转变 为 shell 脚本 ， 需 要 使 用 一 些 shell 脚本 语言 。 我 们 只 演示 shell 脚本 语言 中 一 
小 部 分 概念 的 用 处 。 完 整 的 shell 脚本 语言 课程 需要 专门 的 书籍 来 讲解 ， 这 超出 了 本 书 的 
范围 。 如 果 想 要 深入 研究 ， 推 荐 你 阅读 Robbins & Beebe (2005) 的 Classic Shell Scripting 
(http://shop.oreilly.com/product/9780596005955.do) 一 书 。 


4.1 概述 
本 意 你 将 学 习 : 


。 将 单行 转变 为 shell 脚本 
。 使 已 有 的 Python 和 R 代码 成 为 命令 行 的 一 部 分 


4.2 ”将 单行 转变 为 shell 脚 本 


本 市 将 解释 怎样 将 单行 转变 为 可 重用 的 命令 行 工具 。 假 设 有 如 下 单行 : 


curl -s http://www.gutenberg.org/cache/epub/76/pg76.txt | © 
tr '[:upper:]' '[:lower:]' 
grep -oE '\w+' | 
sort | 
uniq -c | 
sort -nr | 
head -n 10 
6441 and 
5082 the 
3666 i 
3258 a 
3022 to 
2567 it 
2086 t 
2044 was 
1847 he 
1778 of 


V V VV VM V vv 


696060000 


简 言 之 ， 你 可 能 从 输出 中 猜 到 ， 这 个 单行 返回 Adventures of Huckleberry Finn 电子 书 的 前 
10 个 单词 。 它 是 通过 下 列 步 又 完成 的 : 


@ 用 curl 下 载 电 子 书 。 

@ 用 tr (Meyering，2012) 将 整个 文本 转换 为 小 写 。 

© 用 grep (Meyering, 2012) 提取 所 有 的 单词 ， 每 个 单词 占 一 行 。 

@ 用 sort (Haertel & Eggert, 2012) 将 全 部 单词 按 字 母 顺 序 排列 。 

© JH uniq (Stallman & MacKenzie, 2012) 删除 重复 的 单词 ， 并 计算 每 个 单词 在 列表 中 出 
现 的 次 数 。 

@ 用 sort 按 单词 出 现 次 数 的 降序 ， 对 这 个 无 重复 单词 的 列表 排序 。 

@ 用 head 取 前 10 行 (也 即 单词 )。 
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这 个 单行 中 使 用 的 每 个 命令 行 工 具 都 有 操作 说 明 页 。 因 此 ， 当 你 想 要 知道 更 
多 信息 时 ， 例 如 grep， 就 可 以 在 命令 行 中 和 运行 nan grep。 下 一 章 将 更 详细 地 
介绍 命令 行 工具 tr、grep、untq 和 sort, 


只 将 单行 运行 一 次 无 可 厚 非 。 不 过 ， 试 想 ， 如 果 我 们 想 要 找到 十 腾 堡 计划 所 有 电子 书 的 前 
10 个 单词 ， 或 者 设想 我 们 想 找到 其 新 闻 网 站 以 小 时 为 单位 的 前 10 个 单词 。 这 些 情况 下 ， 
最 好 是 将 这 个 单行 作为 独立 的 构件 来 组 成 更 大 的 东西 。 我 们 想 要 以 参数 的 形式 给 单行 加 入 
一 些 灵 活性 ， 因 此 将 其 转换 为 shell 脚本 。 

由 于 我 们 使 用 Bash 作为 shell， 编 写 脚本 的 程序 语言 就 是 Bash。 这 允许 我 们 将 单行 作为 


起 点 ， 逐 步 对 其 加 以 改进 。 我 们 将 带 你 通过 下 列 6 个 步骤 ， 将 单行 变 为 可 重用 的 命令 行 
工具 。 


中 。 
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(1) 复制 并 粘贴 单行 到 文 但 
(2) 添加 执行 权限 。 

(3) 定义 所 谓 的 shebang, 
(4) 删除 固定 的 输入 部 分 。 
(5) 添加 参数 。 

(6) 视 情况 扩展 PATH, 


4.2.1 步骤 1: 复制 和 粘贴 

第 一 个 步骤 是 创建 一 个 新 文件 。 打 开 你 最 中 意 的 文本 编辑 器 ， 复 制 和 粘贴 单行 。 将 该 文件 
命名 为 top-words-1.sh (1 代表 创建 新 命令 行 工具 的 第 一 个 步骤 ) ， 将 其 放 入 ~/book/ch04 El 
录 中 ， 也 可 以 选择 其 他 名 称 和 存放 目录 。 文 件 的 内 容 如 示例 4-1 所 示 。 


示例 4-1 ~/book/ch04/top-words-1.sh 

curl -s http://www.gutenberg.org/cache/epub/76/pg76.txt | 

tr '[:upper:]' '[:lower:]' | grep -oE '\wt' | sort | 

uniq -c | sort -nr | head -n 10 
我 们 使 用 文件 扩展 名 .sh 来 表明 创建 的 是 一 个 shell 脚本 。 不 过 ， 命 令 行 工具 并 不 需要 扩展 
名 。 实 际 上 ， 命 令 行 工具 很 少 有 扩展 名 。 


这 里 有 一 个 关于 命令 行 的 小 容 门 。 在 命令 行 中 ，!! 会 被 替换 为 刚才 运行 的 命 
令 。 因 此 ， 如 果 你 意识 到 先前 的 命令 需要 超级 用 户 权 限 ， 可 以 运行 sudo !! 
(Miller，2013)。 此 外 ， 如 果 想 要 不 通过 复制 和 粘贴 就 将 先前 的 命令 保存 到 
文件 中 ， 可 以 运行 echo " !! ”> scriptname。 在 运行 命令 之 前 ,一 定 要 检 
查 scriptname 文件 的 内 容 是 否 正确 ， 因 为 如 果 命 令 中 有 引号 ， 有 时 会 失效 。 
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现在 可 以 使 用 命令 行 工具 bash (Fox & Ramey, 2010) 来 解释 和 执行 文件 中 的 命令 : 


$ bash -/book/ch04/top-words-1.sh 

6441 and 
5082 the 
3666 i 

3258 a 

3022 to 
2567 it 
2086 t 

2044 was 
1847 he 
1778 of 


第 一 个 步骤 已 经 使 我 们 下 次 使 用 时 不 用 再 输入 单行 。 由 于 文件 无 法 单独 被 执行 ， 还 不 能 称 
作 真 正 的 命令 行 工 具 。 让 我 们 在 下 一 个 步骤 中 改变 这 种 情况 。 


4.2.2 R2: 添加 执行 权限 
无 法 直接 执行 该 文件 的 原因 在 于 我 们 没有 正确 的 访问 权限 。 具 体 地 说 ， 作 为 用 户 的 你 需要 
有 执行 该 文件 的 权限 。 本 节 我 们 将 改变 文件 的 访问 权限 。 


为 了 显示 步骤 之 间 的 差异 ， 我 们 使 用 cp top-words-(1, 2).sh 将 文件 复制 到 
top-words-2.sh。 你 也 可 以 一 直 使 用 同一 个 文件 。 


要 改变 文件 的 访问 权限 ， 我 们 使 用 称 为 chmod (MacKenzie & Meyering, 2012) 的 命令 行 工 
具 ， 意 为 “改变 模式 ”(change mode)。 它 改变 特定 文件 的 文件 模式 位 。 下 列 命令 授予 用 户 
(就 是 你 ) 执行 top-words-2.sh 的 权限 : 


$ cd -/book/ch04/ 
$ chmod u+x top-words-2.sh 


ux 选项 包括 三 个 特性 : (1) u 表明 想 要 改变 文件 拥有 者 〈 就 是 你 ) 的 权限 ， 因 为 是 你 创 
建 了 该 文件 ，(2) + 表明 想 要 添加 权限 ，(3) x 表明 是 执行 权限 。 现 在 来 看 一 下 这 两 个 文件 的 
权限 : 


$ ls -l top-words-{1,2}.sh 
-rw-rw-r-- 1 vagrant vagrant 145 Jul 20 23:33 top-words-1.sh 
-rwxrw-r-- 1 vagrant vagrant 143 Jul 20 23:34 top-words-2.sh 


第 一 列 显示 的 是 每 个 文件 的 访问 权限 。 对 于 top-words-2.sh, a& -rwxrw-r--。 第 一 个 字 
符 ，-， 表 明文 件 类 型 。- 意 为 常规 文件 ，d (这 里 没有 出 现 ) 意 为 目录 。 随 后 的 三 个 字符 ， 
rwx， 表 明文 件 拥 有 者 的 访问 权限 。r 和 w 分 别 代表 读 和 写 。( 你 可 以 看 到 ，top-words-q.sh 
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用 - 替换 了 x， 意 思 是 我 们 不 能 执行 该 文件 .) 后 面 的 三 个 字符 ，rw-， 表 明 拥 有 该 文件 的 
用 户 组 中 所 有 成 员 的 访问 权限 。 最 后 ， 第 一 列 的 最 后 三 个 字符 ，r--， 表 明 其 他 所 有 用 户 
的 访问 权限 。 


现在 就 可 以 执行 该 文件 : 


$ ~/book/ch04/top-words-2.sh 

6441 and 
5082 the 
3666 i 

3258 a 

3022 to 
2567 it 
2086 t 

2044 was 
1847 he 
1778 of 


注意 ， 如 果 你 所 在 的 目录 与 可 执行 文件 的 目录 相同 ， 需 要 用 如 下 方式 执行 该 文件 〈 注 意 3 
中 的 ./) : 
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$ cd -/book/ch04 
$ ./top-words-2.sh 


如 果 尝 试 执 行 你 没有 正确 访问 权限 的 文件 ， 比 如 top-words-1.sh， 你 会 看 到 如 下 报错 信息 : 


$ ./top-words-1.sh 
bash: ./top-words-1.sh: Permission denied 


4.2.3 步骤 3: 定义 shebang 

尽管 已 经 可 以 单独 执行 文件 本 身 ， 我 们 还 应 该 向 文件 中 加 入 所 谓 的 shebang, shebang 是 
脚本 中 的 特殊 行 ， 它 告诉 系统 用 哪个 可 执行 文件 来 解释 命令 。 在 我 们 的 例子 中 ， 想 要 使 用 
bash 来 解释 命令 。 示 例 4-2 显示 了 文件 top-words-3.sh 加 入 shebang 的 样子 。 


示例 4-2 ~/book/ch04/top-words-3.sh 


#!/usr/bin/env bash 

curl -s http://www.gutenberg.org/cache/epub/76/pg76.txt | 
tr '[:upper:]' '[:lower:]' | grep -oE '\wt' | sort | 

uniq -c | sort -nr | head -n 10 


shebang 这 个 名 字源 于 该 行 的 前 两 个 字符 : 井 号 # (she) 和 惊叹 号 ! (bang)。 像 我 们 在 前 


面 几 个 步骤 中 那样 把 它 省 略 掉 不 是 好 主意 ， 因 为 那样 的 话 脚本 的 行为 就 没有 定义 。 我 们 所 
使 用 的 Bash shell 默认 使 用 /bin/bash 这 个 可 执行 文件 。 其 他 shell 可 能 有 不 同 的 默认 值 。 
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有 时 你 会 磁 到 脚本 中 的 shebang 是 !/usr/bin/bash x !/usr/bin/python (在 
使 用 Python 的 情况 下 ， 下 一 节 会 讲 到 ) 形式 。 一 般 情况 下 这 没 问 题 ， 但 如 
果 bash 或 python (Python Software Foundation, 2014) 可 执行 文件 的 安装 目 
录 并 非 /usr/bin， 那 么 这 个 脚本 就 再 也 无 法 执行 。 最 好 是 使 用 我 们 这 里 的 
方式 ， 也 就 是 !/usr/bin/env bash 和 !/usr/bin/env python， 这 是 因为 env 
(Mlynarik & MacKenzie, 2012) 命令 行 工具 能 够 获知 bash 和 python 的 安装 
HR. MALZ, EH env 会 使 你 的 脚本 可 移植 性 更 好 。 


4.2.4 步骤 4: 删除 固定 的 输入 

现在 ， 我 们 有 了 一 个 可 以 在 命令 行 中 执行 的 有 效 的 命令 行 工具 。 但 我 们 还 可 以 做 得 更 好 一 
些 ， 即 让 命令 行 工 具 更 具 可 重用 性 。 我 们 文件 中 的 第 一 个 命令 是 curt， 它 下 载 一 个 文本 ， 
从 中 我 们 期 望 获得 前 10 个 使 用 最 多 的 单词 。 可 见 ， 数 据 和 操作 都 是 捆绑 在 一 起 的 。 


但 是 ， 如 有 果 我 们 想 要 从 另外 的 电子 书 或 其 他 任意 的 文本 中 获取 前 10 个 使 用 最 多 的 单词 会 
怎样 ? 输入 数据 原本 是 固定 于 工具 本 身 之 中 的 ， 将 数据 从 命令 行 工具 中 分 离 出 来 会 更 好 。 


如 果 假 设 命令 行 工 具 的 用 户 将 会 提供 文本 ， 那 就 更 加 普遍 适用 。 因 此 ， 解 决 方法 是 简单 地 
将 curl 命令 从 脚本 中 删除 。 更 新 后 的 脚本 命名 为 top-words-4.sh， 如 示例 4-3 所 示 。 


示例 4-3 ~/book/ch04/top-words-4.sh 


#!/usr/bin/env bash 
tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | 
uniq -c | sort -nr | head -n 10 


这 样 是 可 以 的 ， 因 为 如 果 某 个 脚本 的 第 一 条 命令 Can tr) 需要 来 自 标准 输入 的 数据 ， 那 么 
它 将 获得 给 命令 行 工 具 的 输入 。 假 设 我 们 已 经 将 电子 书 保存 到 data/finn.txt， 举 例 来 说 ， 可 
以 这 样 做 : 


$ cat data/ | ./top-words-4.sh 


尽管 我 们 还 没有 在 脚本 里 这 样 做 ， 但 同样 的 原理 也 适用 于 保存 数据 。 一 般 来 
说 ， 让 用 户 来 处 理 输入 和 输出 更 好 一 些 。 当 然 ， 如 果 你 只 打算 在 自己 的 项 目 
中 使 用 命令 行 工具 ， 那 脚本 写 得 多 么 具体 都 无 所 谓 。 


4.2.5 步骤 5: 参数 化 

为 了 使 我 们 的 命令 行 工 具 更 加 可 重用 ， 还 可 以 再 执行 一 个 步骤 : 参数 化 。 在 我 们 的 命令 行 
工具 中 ， 有 许多 固定 的 命令 行 参 数 ， 例 如 ，sort 命令 的 -nr 以 及 head 命令 的 -n 10。 让 前 
一 个 参数 保持 不 变 很 可 能 是 最 好 的 。 但 对 head 命令 来 说 ， 人 允许 有 不 同 的 参数 值 会 很 有 用 。 
这 使 得 终端 用 户 可 以 设置 要 输出 的 最 常 使 用 单词 的 数量 。 示 例 4-4 显示 了 将 head 参数 化 后 
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文件 top-words-5.sh 的 样子 。 


示例 4-4 ~/book/ch04/top-words-5.sh 
#!/usr/bin/env bash 


NUM WORDS-"$1" o 
tr '[:upper:]' '[:lower:]' | grep -oE '\wt' | sort | 
uniq -c | sort -nr | head -n $NUM WORDS e 


© 变量 NUM WORDS 设置 为 值 S1， 这 是 Bash 中 的 一 个 特殊 值 。 它 存放 的 是 传递 给 命令 行 工 
有 具 的 第 一 个 命令 行 参 数 的 值 。 

@ 注意 ， 为 了 使 用 NUM WORDS 变量 的 值 ， 需 要 在 它 前 面 加 上 美元 符号 ($)。 当 要 设置 它 时 ， 
就 不 要 加 美元 符号 。 


可 以 直接 将 $1 用 作 head 命令 -n 选项 的 值 ， 不 必 繁琐 地 创建 MuM_WORDs 这 样 
的 额外 变量 。 不 过 ， 对 于 较 大 的 脚本 ， 以 及 更 多 的 命令 行 参 数 ， 如 $2 和 $3， 
使 用 命名 的 变量 会 让 代码 的 可 读 性 更 高 。 


现在 ， 如 果 想 要 看 一 下 文本 中 前 5 个 使 用 最 多 的 单词 ， 我 们 将 这 样 调用 命令 行 工 具 : 


$ cat data/finn.txt | top-words-5.sh 5 


如 果 用 户 没有 提供 参数 ，head 将 返回 报错 信息 ， 因 为 $1 的 值 以 及 NUM, WORDS 都 会 是 空 字 
符 串 。 


$ cat data/finn.txt | top-words-5.sh 


head: option requires an argument -- 'n 
Try 'head --help' for more information. 


4.2.6 步骤 6: 扩展 PATH 

现在 终于 创建 完了 一 个 可 重用 的 命令 行 工 具 。 不 过 ， 还 有 一 个 步骤 可 能 很 有 用 。 这 个 可 选 
步骤 确保 你 可 以 在 任何 地 方 执行 你 的 命令 行 工 具 。 

现在 ， 要 执行 命令 行 工 具 ， 你 要 么 进入 工具 所 在 的 目录 ， 要 么 像 步 又 2 那样 包含 完整 的 路 径 
名 。 如 果 命 令 行 工 具 是 为 特定 项 目 专门 创建 的 ， 这 无 可 厚 非 。 但 是 ， 如 果 你 的 命令 行 工具 可 
能 应 用 于 多 个 场合 ， 那 么 像 已 经 安装 的 命令 行 工 具 那 样 ， 在 任何 地 方 都 能 执行 就 很 有 用 。 
要 达到 这 个 目标 ，Bash 需要 知道 到 哪里 寻找 你 的 命令 行 工 具 。 为 此 它 浏览 一 个 目录 列表 ， 
这 个 列表 存储 在 称 为 PATH 的 环境 变量 中 。 在 新 安装 的 数据 科学 工具 箱 中 ，PATH 的 内 容 是 : 


$ echo $PATH | fold 
/[usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/loc 
al/games: /home/vagrant/tools:/usr/lib/go/bin: /home/vagrant/.go/bin: /home/vagrant 
/ .data-science-at-the-command-line/tools:/home/vagrant/.bin 


创建 可 重用 的 命令 行 工 具 | 4 


目录 由 冒号 间隔 。 下 面 是 目录 列表 : 


$ echo $PATH | tr : '\n' | sort 
[bin 

/home/vagrant/.bin 
/home/vagrant/.data-science-at-the-command-line/tools 
/home/vagrant/.go/bin 
/home/vagrant/tools 

/sbin 

/usr/bin 

/usr/games 

/usr/lib/go/bin 

/usr/local/bin 

/usr/local/games 
/usr/local/sbin 

/usr/sbin 


要 永久 修改 PATH， 需 要 编辑 主 目录 中 的 .bashrc 或 profile 文件 。 如 果 你 将 定制 的 全 部 命令 
行 工具 放 入 一 个 目录 ， 如 ~/tools， 那 么 只 需要 修改 PATH 一 次 。 你 会 看 到 ， 数 据 科 学 工具 
箱 已 经 在 其 PATH 中 包含 了 /home/vagrant/.bin。 现 在 你 不 再 需要 加 入 ./， 但 是 可 以 只 使 用 
文件 名 。 而 且 ， 你 不 再 需要 记 住 命令 行 工 具 的 位 置 ， 因 为 可 以 使 用 which 命令 来 定位 。 


4.3 用 Python 和 R 创 建 命令 行 工 具 

上 一 节 我 们 创建 的 命令 行 工具 是 用 Bash 编写 的 。( 当 然 ， 我 们 并 没有 利用 Bash 语言 的 所 
有 特性 ， 不 过 解释 器 还 是 bash.) 现在 你 可 能 知道 ， 命 令 行 是 与 语言 无 关 的 ， 因 此 并 不 是 
必须 使 用 Bash 来 创建 命令 行 工 具 。 


这 一 节 你 将 看 到 ， 也 可 以 用 其 他 程序 语言 来 创建 命令 行 工具 。 我 们 主要 关注 Python FR, 
因为 它们 是 当前 数据 科学 界 中 最 流行 的 程序 语言 。 对 这 两 种 语言 的 完整 介绍 超出 了 本 书 的 
范围 ， 因 此 我 们 假设 你 已 经 在 一 定 程度 上 熟悉 了 Python 和 R。 如 果 用 Java, Go 和 Julia 等 
程序 语言 来 创建 命令 行 工具 ， 也 遵循 相同 的 模式 。 


不 用 Bash 而 用 其 他 程序 语言 来 创建 命令 行 工具 有 三 个 主要 的 原因 。 首 先 ， 你 可 能 已 经 有 
一 些 代码 ， 希望 能 在 命令 行 中 使 用 它们 。 基 次 ,命令 行 工 具 可 能 封装 一 百 多 行 代码 。 最 
后 ,命令 行 工具 的 速度 要 很 快 。 


上 一 节 的 6 个 步骤 大 致 也 适用 于 用 其 他 程序 语言 创建 命令 行 工 具 。 不 过 第 一 步 不 是 在 命 
令 行 中 复制 和 粘贴 ， 而 应 将 相关 的 代码 复制 并 粘贴 到 新 文件 中 。 用 Python 和 R 的 命令 行 
工具 需要 在 shebang 后 面 分 别 指定 python (Python Software Foundation, 2014) 和 Rscript 
(R Foundation for Statistical Computing，2014) 作为 解释 器 。 


使 用 Python FUR 创建 命令 行 工 具 时 ， 有 两 个 方面 的 问题 要 特别 注意 ， 下 面 会 详细 讨论 。 
首先 ， 对 标准 输入 的 处 理 ， 在 shell 脚本 中 是 自然 而 然 的 ， 在 Python 4H R 中 则 要 显 式 地 处 
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理 。 其 次 ， 由 于 用 Python 和 R 编写 的 命令 行 工 具 通常 更 复杂 ， 可 能 还 得 让 用 户 能 够 指定 


更 复杂 的 命令 行 参 数 。 


4.3.1 移植 shell 脚 本 

首先 让 我 们 看 一 下 怎样 将 以 前 的 shell 脚本 移植 到 Python 和 R 中 。 换 句 话 说，Python 4H R 
代码 计算 的 来 自 标准 输入 的 最 常 使 用 单词 是 什么 样 ? 用 shell 之 外 的 程序 语言 实现 这 个 任 
务 是 否 是 一 个 好 主意 并 不 重要 。 真 正 重要 的 是 它 给 我 们 一 个 好 机 会 来 比较 Bash 与 Python 
和 R。 


zm 


我 们 首先 展示 top-words.py 和 top-words.R 两 个 文件 ， 然 后 讨论 它们 与 shell 代码 的 差别 。 
在 Python 中 ， 代 码 可 能 如 示例 4-5 所 示 。 


示例 4-5 — ~/book/ch04/top-words.py 


#!/usr/bin/env python 

import re 

import sys 

from collections import Counter 

num words - int(sys.argv[1]) 

text = sys.stdin.read().lower() 

words = re.split('\W+', text) 

cnt = Counter(words) 

for word, count in cnt.most_common(num_words): 
print "%7d %s" % (count, word) 


示例 4-5 使 用 的 是 纯 Python。 如 果 要 进行 高 级 的 文本 处 理 ， 建 议 查 一 下 
NLTK 程序 包 (Pekins，2010)。 如 果 想 要 处 理 大 量 数值 型 数据 ， 建 议 使 用 
Pandas 程序 包 (McKinney, 2012), 


AER, hEm 4-6 所 示 (这 里 要 感谢 Hadley Wickham) 。 


示例 4-6 ~/book/ch04/top-words.R 


#!/usr/bin/env Rscript 

n «- as.integer(commandArgs(trailingOnly - TRUE)) 

f «- file("stdin") 

lines «- readLines(f) 

words <- tolower(unlist(strsplit(lines, "\\W+"))) 

counts «- sort(table(words), decreasing - TRUE) 

counts n «- counts[1:n] 

cat(sprintf("%7d %s\n", counts n, names(counts n)), sep = "") 
close(f) 


让 我 们 看 一 下 三 种 实现 (BI Bash, Python FUR) 返回 的 前 5 个 单词 及 其 数量 是 否 相 同 : 
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$ « data/76.txt ./top-words-5.sh 5 
6441 and 
5082 the 
3666 i 
3258 a 
3022 to 
$ « data/76.txt ./top-words.py 5 
6441 and 
5082 the 
3666 i 
3258 a 
3022 to 
$ « data/76.txt ./top-words.R 5 
6441 and 
5082 the 
3666 i 
3258 a 
3022 to 


非常 好 ! 当然 ,输出 本 身 并 没有 多 么 令 人 兴奋 。 真 正 令 人 兴奋 的 是 我 们 可 以 用 多 种 方法 完 
成 同一 个 任务 。 现 在 ， 让 我 们 看 一 下 这 些 方法 之 间 的 差别 。 


首先 ， 最 显而易见 的 就 是 代码 量 的 差异 。 对 这 个 特定 任务 来 说 ，Python 和 RR 的 代码 量 都 比 
Bash 多 许多 。 这 也 说 明 ， 对 某 些 任务 来 说 ， 使 用 命令 行 效率 更 高 。 对 其 他 任务 来 说 ， 使 
用 程序 语言 则 更 好 。 随 着 使 用 命令 行 的 经 验 愈加 丰富 ， 你 会 开始 意识 到 应 该 在 什么 时 候 使 
用 哪 种 方法 。 当 所 有 代码 都 转变 为 命令 行 工 具 时 ， 你 甚至 可 以 将 任务 分 解 为 子 任务 ， 并 将 
Bash 命令 行 工 具 与 Python 命令 行 工 具 等 结合 起 来 。 不 管用 哪 种 方法 完成 任务 最 好 ， 都 可 
LME FRR! 


4.3.2 ”处 理 来 自 标准 输入 的 流 数 据 

在 前 面 两 个 代码 示例 中 ，Python 和 及 都 一 次 性 读 取 整 个 标准 输入 。 在 命令 行 中 ， 多 
行 工具 以 流 的 方式 将 数据 通过 管道 传递 给 下 一 个 命令 行 工具 。[ 有 一 些 

得 全 部 数据 ， 才 能 将 数据 写 到 标准 输出 ， 如 sort 和 awk (Brennan, 1994), ] 这 意 
道 被 这 类 命令 行 工具 阻塞 了 。 当 输入 数据 有 限 的 时 候 (如 文件 )， 这 并 不 是 什么 问题 。 但 
是 ， 当 输入 数据 是 持续 不 断 的 数据 流 时 ， 这 样 的 阻塞 命令 行 工具 就 没有 用 了 。 


Size, Python 和 R 都 能 处 理 流 数据 。 例 如 ， 你 可 以 逐 行 地 应 用 函数 。 示 例 4-7 和 示例 
4-8 是 两 个 很 小 的 例子 ， 分 别 解释 了 Python 和 R 是 怎样 做 的 。 它 们 计算 通过 管道 传递 过 来 
的 所 有 整数 的 平方 。 


示例 4-7 — -/book/chO4/stream.py 


#!/usr/bin/env python 
from sys import stdin, stdout 
while True: 

line = stdin.readline() 
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if not line: 

break 
stdout.write("%d\n" % int(line)**2) 
stdout. flush() 


示例 4-8 ~/book/ch04/stream.R 


#!/usr/bin/env Rscript 

f <- file("stdin") 

open(f) 

while(length(line <- readLines(f, n = 1)) > 0) ( 
write(as.integer(line)^2, stdout()) 


} 
close(f) 
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第 2 章 中 ， 我 们 学 习 了 数据 科学 的 OSEMN 模型 的 第 一 个 步 又， 即 怎样 从 多 种 多 样 的 数据 
源 获取 数据 。 在 这 些 数据 中 ,缺失 值 、 不 一 致 、 错 误 、 怪 异 字符 或 者 见 余 列 等 问题 屡 见 不 
鲜 。 有 时 我 们 只 需要 数据 的 某 个 部 分 ， 有 时 则 需要 其 他 格式 的 数据 。 这 些 情况 下 ， 必 须 清 
洗 数据 ， 然 后 才能 进行 第 三 个 步骤 探索 数据 。 

在 第 3 章 中 获取 的 数据 可 能 有 各 种 各 样 的 格式 。 最 常见 的 是 纯 文本 、CSV、JSON 和 


HTML/XML。 多 数 命 令 行 工 具 只 能 处 理 一 种 格式 ， 因 此 能 够 将 数据 从 一 种 格式 转换 为 另 一 
种 格式 是 值得 的 。 


CSV 是 本 章 使 用 的 主要 格式 ， 但 实际 上 并 不 是 最 易 用 的 格式 。 许 多 CSV 数据 集 受到 损坏 
或 者 互相 不 能 兼容 ， 因 为 它 不 像 XML F JSON 那样 有 标准 的 语法 。 


一 旦 数据 是 我 们 想 要 的 格式 ， 就 可 以 对 其 应 用 常见 的 清洗 操作 ， 包 括 数 据 的 过 滤 、 置 
换 和 合并 。 命 令 行 特别 适合 于 这 类 操作 ， 因 为 有 许多 强大 的 命令 行 工 具 ， 它 们 都 针对 
海量 数据 的 处 理 做 了 优化 。 本 章 将 讨论 cut (Ihnat，MacKenzie & Meyering, 2012) 和 
sed (Fenlason, Lord, Pizzini & Bonzini, 2012) 等 经 典 工 具 ， 以 及 jq (Dolan, 2014) 和 
csvgrep (Groskopf, 2014) 等 新 工具 。 


本 章 讨 论 的 数据 清洗 任务 不 仅 适 用 于 输入 数据 。 有 时 还 需要 对 某 些 命令 行 工具 的 输出 数 
据 进行 格式 转换 。 例 如 ， 要 将 uniq -c 的 输出 转换 为 CSV 格式 ， 可 以 使 用 awk (Brennan, 
1994) 和 header MA: 
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$ echo 'foo\nbar\nfoo' | sort | uniq -c | sort -nr 


2 foo 

1 bar 
$ echo 'foo\nbar\nfoo' | sort | uniq -c | sort -nr 
> awk '{print $2","$1}' | header -a value,count 
value,count 
foo,2 
bar,1 


如 果 除 了 这 些 命令 行 工具 (的 组 合 ) 所 提供 的 功能 ， 你 的 数据 还 需要 额外 的 功能 ， 那 就 可 
以 使 用 csvsqL。 这 个 命令 行 工具 允许 你 直接 对 CSV 文件 执行 SQL 查询 。 如 果 读 完 本 章 你 
还 需要 更 多 的 灵活 性 ， 记 住 ， 你 可 以 自由 选择 使 用 R、Python 或 你 喜欢 的 任何 程序 语言 。 


我 们 将 在 适当 授权 的 基础 上 介绍 命令 行 工具 。 你 会 注意 到 有 时 我 们 可 以 用 同一 个 命令 行 工 
有 具 来 执行 多 个 操作 ， 反 之 亦 然 ， 多 个 命令 行 工具 也 可 以 执行 同一 个 操作 。 本 章 的 结构 更 像 
京 饪 书籍 ， 其 重点 在 于 问题 或 者 说 菜谱 ， 而 不 是 命令 行 工 具 。 


5.1 概述 
本 章 我 们 将 学 习 : 


。 将 数据 从 一 种 格式 转换 为 另 一 种 格式 
。 XE CSV 应 用 SQL 查询 

。 行 过 滤 

。 值 抽取 和 替换 

。 列 分 割 、 合 并 和 抽取 


nin izEGHE A 
5.2. 纯 文 本 的 常见 清洗 操作 
本 节 我 们 讲述 纯 文本 的 常见 清洗 操作 。 形 式 上 ， 纯 文本 指 的 是 人 工 可 读 的 字符 串 ， 根 据 
需要 可 以 加 入 一 些 特定 类 型 的 控制 字符 (例如 tab 符 或 换行 符 ， 更 多 信息 参见 http://www. 
linfo.org/plain_text.html。 这 样 的 例子 包括 电子 书 、 电 子 邮 件 、 日 志文 件 和 源 代 码 。 


为 本 书 的 目的 起 见 ， 我 们 假设 纯 文 本 中 包含 数据 ， 并 且 这 些 数据 没有 ( 像 CSV HEC ABE 
HJ) 清晰 的 表格 结构 或 ( 像 JSON fü HTML/XML 格式 那样 的 ) GRE. APA 
分 将 讨论 这 些 格式 。 尽 管 这 些 操作 也 可 以 应 用 于 CSV, JSON 和 HTML/XML 格式 ， 但 你 
要 记 住 命令 行 工 具 将 这 些 数据 看 作 纯 文 本 。 


TS 


5.2.4 行 过 滤 
第 一 个 清洗 操作 是 行 过 滤 。 这 意味 要 评估 输入 数据 中 的 每 一 行 来 决定 是 否 可 以 转 入 输出 。 


1. 根据 位 置 过 滤 

最 直接 的 行 过滤 方 法 是 根据 行 的 位 置 进 行 过 滤 。 这 在 你 想 要 查看 文件 的 (比如 ) 前 10 行 ， 
或 者 从 另 一 个 命令 行 工 具 的 输出 中 抽取 特定 列 时 可 能 有 用 。 为 了 解释 怎样 根据 位 置 进行 行 
过 着 ， 我 们 创建 一 个 包含 10 行 的 伪 文 件 : 


$ cd -/book/ch05/data 

$ seq -f "Line %g" 10 | tee lines 
Line 1 
Line 2 
Line 3 
Line 4 
Line 5 
Line 6 
Line 7 
Line 8 
Line 9 
Line 10 

可 以 用 head、sed 或 awk 打印 前 三 行 : 


$ < Lines head -n 3 

$ < lines sed -n '1,3p' 
$ « lines awk 'NR«-3' 
Line 1 

Line 2 

Line 3 


与 之 类 似 ， 可 以 用 tail (Rubin, MacKenzie, Taylor & Meyering, 2012) 打印 最 后 三 行 : 


$ < lines tail -n 3 
Line 8 
Line 9 
Line 10 


也 可 以 用 sed fil awk， 但 是 tail 要 快 得 多 。 将 前 三 行 删除 的 命令 如 下 所 示 : 


$ < lines tail -n +4 

$ « lines sed '1,3d' 

$ « lines sed -n '1,3!p' 
Line 4 
Line 5 
Line 6 
Line 7 
Line 8 
Line 9 
Line 10 

请 注意 tail 要 加 1。 删 除 最 后 三 行 可 以 用 head 命令 : 


$ < lines head -n -3 
Line 1 
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Line 
Line 
Line 
Line 
Line 
Line 


- Oo Ud uU0nF€ 


可 以 用 sed 或 awk， 也 可 以 组 合 使 用 head 与 tail 来 打印 (或 抽取 ) 特定 行 (这 里 是 第 4、 
5. 611) : 


$ « lines sed -n '4,6p' 

$ < lines awk '(NR>=4)&&(NR<=6) ' 
$ « lines head -n 6 | tail -n 3 
Line 4 

Line 5 

Line 6 


用 sed 指定 起 始 行 和 步 长 ， 或 者 用 awk 的 取 模 运算 符 来 打印 奇数 行 : 


$ < lines sed -n '1-2p' 
$ « lines awk 'NR%2' 
Line 1 

Line 
Line 
Line 
Line 


用 类 似 的 方式 打印 偶数 行 : 


on UU 


$ « lines sed -n '0-2p' 
$ < lines awk '(NR+1)%2' 
Line 2 
Line 4 
Line 6 
Line 8 
Line 10 


2. 根据 模式 过 滤 

有 时 可 能 要 根据 内 容 来 提取 或 删除 某 些 行 。grep 是 行 过滤 的 经 典 命令 行 工具 ， 用 它 可 以 打 
印 匹配 某 个 模式 或 正则 表达 式 的 所 有 行 。 例 如 ， 要 从 Alice’s Adventures in Wonderland 中 抽 
取 各 章 标 题 : 


$ grep -i chapter alice.txt 

CHAPTER I. Down the Rabbit-Hole 

CHAPTER II. The Pool of Tears 

CHAPTER III. A Caucus-Race and a Long Tale 
CHAPTER IV. The Rabbit Sends in a Little Bill 
CHAPTER V. Advice from a Caterpillar 

CHAPTER VI. Pig and Pepper 

CHAPTER VII. A Mad Tea-Party 

CHAPTER VIII. The Queen's Croquet-Ground 


CHAPTER IX. The Mock Turtle's Story 
CHAPTER X. The Lobster Quadrille 
CHAPTER XI. Who Stole the Tarts? 
CHAPTER XII. Alice's Evidence 


这 里 ，-i 的 意思 是 不 区 分 大 小 写 。 也 可 以 指定 正则 表达 式 。 例 如 ， 如 果 只 想 打印 以 “The” 
开头 的 标题 : 

$ grep -E '^CHAPTER (.*)\. The' alice.txt 

CHAPTER II. The Pool of Tears 

CHAPTER IV. The Rabbit Sends in a Little Bill 

CHAPTER VIII. The Queen's Croquet-Ground 


CHAPTER IX. The Mock Turtle's Story 
CHAPTER X. The Lobster Quadrille 


注意 ， 必 须 指定 -E 选项， 这 样 才 能 启用 正则 表达 式 ， 否 则 grep 会 将 模式 解释 为 字面 字 
"Hb. 


3. 随机 过 滤 

你 处 于 构想 数据 管道 的 过 程 中 ， 数 据 量 很 大 时 ， 调 试管 道 可 能 会 很 麻烦 。 这 种 情况 下 ， 
从 数据 中 采样 可 能 有 用 。 命 令 行 工 具 sample (Janssens, 2014) 的 主要 用 途 是 ， 通 过 只 将 
特定 比例 的 输入 数据 逐 行 输出 ， 来 得 到 数据 的 一 个 子 集 : 


Uk 


$ seq 1000 | sample -r 1% | jq -c '{line: .}' 
{"line":53} 
("line":119) 
("line":141) 
("line":228) 
("line":464) 
("line":476) 
("line":523) 
("line":657) 
("line":675) 
("line":865) 
("line":948) 


这 里 ， 每 行 输入 有 1% 的 几率 输入 jgq。 也 可 以 将 这 个 比例 指定 为 分 数 (1/100). 或 概率 
(0.01) 形式 。 


sample 还 有 其 他 两 个 用 途 ， 当 处 于 调试 模式 时 会 派 上 用 场 。 首 先 ， 可 以 向 输出 加 入 延迟 。 
这 在 输入 是 持续 不 断 的 数据 流 (例如 Twitter 数据 流 ) 以 及 数据 到 来 得 太 快 而 无 法 看 清 发 
生 了 什么 时 用 得 着 。 其 次 ， 可 以 给 sample 加 上 定时 器 。 这 样 ， 就 不 必 手 动 终止 运行 中 的 进 
程 。 给 前 述 命令 的 每 个 输出 行 之 间 加 上 1 秒 钟 的 延迟 ， 并 限定 运行 5 秒 钟 : 


$ seq 10000 | sample -r 1% -d 1000 -s 5 | jq -c '{line: .}' 


为 了 避免 不 必要 的 计算 ， 应 将 sample 尽 可 能 早 地 放 入 管道 (这 个 建议 对 任何 缩减 数据 的 命 
令 都 适用 ， 如 head 和 tail)。 一 旦 调试 结束 ， 可 以 直接 将 它 移出 管道 。 
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5.2.2 (AiE 
为 了 从 前 面 的 例子 中 提取 实际 的 各 章 标题 ， 我 们 可 以 采用 一 种 简单 的 方法 : 将 orep 的 输出 


通过 管道 连接 到 cut。 


m 


$ grep -i chapter alice.txt | cut -d' ' -f3- 
Down the Rabbit-Hole 

The Pool of Tears 

A Caucus-Race and a Long Tale 

The Rabbit Sends in a Little Bill 
Advice from a Caterpillar 

Pig and Pepper 

A Mad Tea-Party 

The Queen's Croquet-Ground 

The Mock Turtle's Story 

The Lobster Quadrille 

Who Stole the Tarts? 

Alice's Evidence 


这 里 ， 传 递 给 cut 的 每 一 行 都 以 空格 间隔 分 成 多 个 字段 ， 然 后 将 第 三 个 字段 直至 末尾 字 
段 输出 。 各 输入 行 的 字段 数量 可 能 各 不 相同 。 用 sed 也 可 以 完成 同样 的 任务 ,但 是 要 复 


杂 得 多 : 


$ sed -rn 's/^CHAPTER ([IVXLCDM]{1,})\. (.*)$/\2/p' alice.txt > /dev/null 


(由 于 输出 结果 与 前 面相 同 ， 我 们 通过 重 定向 到 /dev/null 将 输出 省 略 掉 。) 这 种 方法 使 用 了 
正则 表达 式 和 反 向 引用 。 这 里 ，sed 也 接管 了 grep 的 工作 。 这 种 复杂 方法 只 有 在 没有 更 简 
单 的 方法 时 才 是 可 取 的 。 例 如 ， 如 果 “chapter” 是 文本 正文 的 一 部 分 ， 而 并 不 仅 用 来 表明 
新 一 章 的 开始 。 当 然 ， 针 对 这 一 问题 有 许多 不 同 复杂 度 的 方法 ， 这 里 只 是 为 了 阐明 一 种 极 
端 严格 的 方法 。 实 践 中 的 挑战 是 ， 在 复杂 性 和 灵活 性 之 间 找 到 一 个 好 的 平衡 点 。 


值得 注意 的 是 ，cut 也 可 以 根据 字符 位 置 来 分 割 。 这 在 你 想 要 提取 (或 删除 ) 每 个 输入 行 
的 相同 字符 集合 时 会 有 用 。 


$ grep -i chapter alice.txt | cut -c 9- 
I. Down the Rabbit-Hole 

II. The Pool of Tears 

III. A Caucus-Race and a Long Tale 
IV. The Rabbit Sends in a Little Bill 
V. Advice from a Caterpillar 

VI. Pig and Pepper 

VII. A Mad Tea-Party 

VIII. The Queen's Croquet-Ground 

IX. The Mock Turtle's Story 

X. The Lobster Quadrille 

XI. Who Stole the Tarts? 

XII. Alice's Evidence 


l 


grep 有 一 个 非常 好 的 特性 ， 能 够 将 每 个 匹配 结果 输出 到 单独 一 


— 
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$ < alice.txt grep -oE '\w{2,}' | head 
Project 
Gutenberg 
Alice 
Adventures 
in 
Wonderland 
by 

Lewis 
Carroll 
This 


但 是 如 果 要 创建 以 “a” 开 头 并 以 “e” 结 尾 的 所 有 单词 的 数据 集 ， 应 该 怎样 做 ?当然 还 应 
该 用 管道 : 


$ < alice.txt tr '[:upper:]' '[:lower:]' | grep -oE '\w{2,}' | 


» grep -E '^a.*e$' | sort | uniq -c | sort -nr 
> awk '{print $2","$1}' | header -a word,count | head | csvlook 
| m | 

| word | count | 

|- e | 

| alice | 403 | 

| are | 73 | 

| archive | 13 | 

| agree | 11 | 

| anyone | 5 | 

| alone | 5 | 

| age | 4 | 

| applicable | 3 | 

| anywhere | 3 | 

| alive | 3 | 

| n: | 


5.2.3 值 蔡 换 和 删除 


可 以 使 用 命令 行 工具 tr (代表 “翻译 ”， 即 translate) 来 替换 单个 字符 。 例 如 ， 空 格 可 以 替 
换 为 下 划 线 : 


$ echo 'hello world!' | tr ' ' ' ' 
hello world! 


如 采 需 要 替换 多 个 字符 ， 可 以 这 样 组合 


$ echo 'hello world!' | tr ' !' ' ?' 
hello world? 


也 可 以 通过 指定 -d 选项 用 tr 删除 单个 字符 : 


$ echo 'hello world!' | tr -d -c '[a-z]' 
helloworld 
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这 里 ， 我 们 实际 上 使 用 了 两 个 特性 。 首 先 ， 指 定 了 一 组 字符 (所 有 的 小 写字 母 )。 其 次 ， 
HAE -< 选项 说 明 使 用 补 集 。 换 句 话 说， 这 个 命令 只 保留 小 写字 母 。 我 们 甚至 可 以 用 tr 将 
文本 变 为 大 写 : 


$ echo 'hello world!' | tr '[a-z]' '[A-Z]' 
HELLO WORLD! 
$ echo 'hello world!' | tr '[:lower:]' '[:upper:]' 


HELLO WORLD! 


后 面 的 命令 更 好 ， 因 为 它 还 能 处 理 非 ASCH 字符 。 如 果 需 要 处 理 多 个 字符 ， 你 可 能 会 发 现 
sed 很 好 用 。 我 们 已 经 看 过 用 sed 从 Alice in Wonderland 中 抽取 各 章 标题 的 例子 。 实 际 上 在 
sed 中 抽取 、 删 除 和 替换 都 是 同样 的 操作 。 你 只 需要 指定 不 同 的 正则 表达 式 。 例 如 ， 要 修 
改 一 个 单词 ， 删 除 重复 的 空格 ， 并 删除 开头 的 空格 : 


$ echo ' hello world!' | sed -re 's/hello/bye/;s/\st+/ /g;s/\s+//' 
bye world! 


标记 9 代表 “全 局 ”(global) ， 意 为 同样 的 部 分 可 以 在 同一 行 中 应 用 多 次 。 第 二 部 分 删除 
开头 的 空格 ， 这 里 我 们 不 再 需要 它 。 注 意 ， 第 一 个 部 分 和 最 后 一 个 部 分 的 正则 表达 式 本 来 
可 以 组 合 为 一 个 正则 表达 式 。 


5.3 处 理 CSV 
5.3.1 主体 、 头 部 和 列 


我 们 用 来 清洗 纯 文本 的 命令 行 工 具 ， 如 tr 和 grep， 并 不 是 始终 都 适用 于 CSV 的 。 原 因 在 于 
这 些 命令 行 工 具 没 有 头 部 、 主 体 和 列 的 概念 。 如 果 我 们 想 要 使 用 grep 来 对 行进 行 过 滤 ， 但 
是 输出 中 始终 包含 头 部 ， 应 该 怎么 办 ? 或 者 如 果 我 们 只 想 用 tr 将 特定 列 的 值 变 为 大 写 ， 而 
保持 其 他 列 不 变 ， 应 该 怎么 办 ? 对 此 有 多 步 的 变通 方案 ， 但 是 都 非常 繁琐 。 其 实 有 更 好 的 办 
法 。 为 了 对 处 理 CSV 的 普通 命令 行 工具 加 以 利用 ， 我 们 向 你 介绍 三 个 命令 行 工 具 ， 它 们 的 
名 称 很 贴切 : body (Janssens, 2014), header (Janssens, 2014) 和 cols (Janssens, 2014), 


让 我 们 从 第 一 个 命令 行 工具 body 开始 。 使 用 body 可 以 将 任何 命令 行 工具 应 用 到 CSV 文件 
的 主体 中 〈 也 就 是 除了 头 部 之 外 的 所 有 内 容 ) 。 例 如 : 
$ echo -e "value\n7\n2\n5\n3" | body sort -n 


value 
2 


body 假设 CSV 文件 的 头 只 占 一 行 。 为 了 完整 性 ， 下 面 给 出 了 源 代码 : 
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#!/usr/bin/env bash 

IFS- read -r header 

printf '%s\n' "Sheader" e 
$@ 


body 是 这 样 工作 的 : 


@ 从 标准 输入 中 提取 一 行 ， 将 其 存储 为 名 为 Sheader 的 变量 。 
e 输出 头 部 。 
© 对 剩 下 的 数据 执行 传递 给 body 的 所 有 命令 行 参数 。 


下 面 是 另 一 个 例子 。 假 设 要 计算 下 列 CSV 文件 的 行 数 : 


7 


$ seq 5 | header -a count 
count 
1 


UAWN 


使 用 wc -1L， 可 以 计算 所 有 行 的 数量 : 


$ seq 5 | header -a count | wc -l 
6 


如 果 只 想 考 虑 主体 中 的 行 (也 就 是 除了 头 部 之 外 的 所 有 内 容 )， 只 需要 加 上 body: 
$ seq 5 | header -a count | body wc -l 


count 
5 


注意 ,没有 使 用 头 部 ， 但 输出 中 仍然 有 它 。 


第 二 个 命令 行 工具 header ， 顾 名 思 义 ， 让 我 们 可 以 对 CSV 文件 的 头 部 进行 操作 。 
源 代 码 如 下 所 示 : 


#!/usr/bin/env bash 
get_header () { 
for i in $(seq SNUMROWS); do 
IFS- read -r LINE 
OLDHEADER-" $ (COLDHEADER) $ (LINEA n" 
done 


} 


print_header () { 
echo -ne "$1" 


} 


完整 的 
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print body () { 
cat 


j 


OLDHEADER= 
NUMROWS=1 


while getopts "dn:ha:r:e:" OPTION 


case SOPTION in 


do 

esac 
done 
get_header 


print header SOLDHEADER 


n) 


a) 


d) 


r) 


e) 


h) 


NUMROWS-SOPTARG 


a9 


print_header "SOPTARG\n" 
print_body 
exit 1 


33 


get_header 
print_body 
exit 1 


325: 


get header 

print header "SOPTARG\n" 
print body 

exit 1 


3:3 


get header 


print header "$(echo -ne SOLDHEADER | eval SOPTARG)\n" 


print_body 
exit 1 


如 有 果 没 有 提供 任何 参数 ， 输 出 的 CSV 文件 的 头 部 就 是 : 


$ < tips.csv header 


bill,tip,sex,smoker,day,time,size 


iX 5j head -n 1 相同 。 如 果 头 部 占据 不 止 一 行 (通常 
-n 2。 也 可 以 给 CSV 文件 加 上 头 部 : 


不 建议 这 样 做 ) ， 可 以 将 参数 指定 为 


$ seq 5 | header -a count 
count 


这 与 echo "count" | cat - «(seq 5) 等 价 。 用 -d 选项 可 以 将 头 部 删除 。 


$ < iris.csv header -d | head 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
4.6,3.1,1.5,0.2,Iris-setosa 
5.0,3.6,1.4,0.2,Iris-setosa 
5.4,3.9,1.7,0.4,Iris-setosa 
4.6,3.4,1.4,0.3,Iris-setosa 
5.0,3.4,1.5,0.2,Iris-setosa 
4.4,2.9,1.4,0.2,Iris-setosa 
4.9,3.1,1.5,0.1,Iris-setosa 


这 与 tail -n +2 类 似 ， 但 更 容易 记忆 一 些 。 通 过 指定 -r 就 可 以 对 头 部 进行 替换 ， 如 果 你 
看 一 下 前 面 的 源 代码 就 会 明白 ， 这 个 操作 基本 上 首先 删除 头 部 ， 然 后 加 入 新 的 头 部 。 这 
里 ， 我 们 将 其 与 body 命令 组 合 使 用 : 


$ seq 5 | header -a line | body wc -l | header -r count 
count 
5 


最 后 ， 可 以 只 对 头 部 应 用 一 个 命令 ， 这 与 body 命令 行 工具 对 主体 所 做 的 类 似 : 


$ seq 5 | header -a line | header -e "tr '[a-z]' '[A-Z]'" 


LINE 

1 

2 

3 

4 

5 
第 三 个 命令 行 工 具 称 为 cols， 它 与 header Fil body 类 似 ， 都 让 你 可 以 只 对 列 的 子 集 应 用 特 
定 命令 。 其 代码 如 下 所 示 : 


#!/usr/bin/env bash 

ARG="$1" 

shift 

COLUMNS="$1" 

shift 

EXPR="$@" 

DIRTMP-$(mktemp -d) 

mkfifo SDIRTMP/other columns 
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tee SDIRTMP/other columns | csvcut SARG SCOLUMNS | §{EXPR} | 
paste -d, - «(csvcut ${ARG~~} $COLUMNS SDIRTMP/other columns) 
rm -rf SDIRTMP 


例如 ， 如 果 想 要 将 tips.csv 数据 集中 的 day 列 的 值 变 为 大 写 〈 其 他 列 和 头 部 都 不 变 ) ， 应 该 
使 用 cols 与 body 的 组 合 ， 如 下 所 示 : 


$ < tips.csv cols -c day body "tr '[a-z]' '[A-Z]'" | head -n 5 | csvlook 
|------ I +------ +-------- +-------- +-------- +------- | 
| day | bill | tip | sex | smoker | time | size | 
|------ I +------ +-------- +-------- +-------- +------- 
| SUN | 16.99 | 1.01 | Female | No | Dinner | 2 | 
| SUN | 10.34 | 1.66 | Male | No | Dinner | 3 | 
| SUN | 21.01 | 3.5 | Male | No | Dinner | 3 | 
| SUN | 23.68 | 3.31 | Male | No | Dinner | 2 | 
|------ I +------ +-------- +-------- +-------- +------- | 


注意 ， 将 多 个 命令 行 工 具 和 参数 作为 命令 传递 给 header -e, body 和 cols 可 能 导致 棘手 的 
引用 问题 。 如 果 遇 到 这 种 了 问题， 最 好 为 此 创建 单独 的 命令 行 工 具 ， 然 后 将 其 作为 命令 传递 。 


总 之 ， 尽 管 使 用 CSV 数据 专用 的 命令 行 工 具 通 常 更 可 取 ， 但 如 果 需 要 ， 通 过 body, header 
和 cols 也 可 以 对 CSV 文件 应 用 经 典 的 命令 行 工 具 。 


5.3.2 ”对 CSV 执 行 SQL 查询 

如 果 本 章 中 提 到 的 命令 行 工 具 不 够 灵 话 ， 用 命令 行 工 具 来 请 洗 数据 还 有 另外 一 种 方法 。 命 
令 行 工 具 csvsql (Groskopf, 2014) 让 你 可 以 直接 对 CSV 文件 执行 SQL 查询 。 你 可 能 知 
道 ，SQL 是 定义 数据 清洗 操作 的 一 种 非常 强大 的 语言 ，SQL 与 使 用 单独 的 命令 行 工 具 锭 然 
不 同 。 


如 果 你 的 数据 最 初 源 于 关系 数据 库 ， 可 能 的 话 ， 可 以 试 着 对 该 数据 库 执行 
SQL 查询 ， 接 着 将 数据 抽取 为 CSV 格式 。 正 如 在 第 3 章 中 讨论 的 那样 ， 可 
以 使 用 命令 行 工具 sql2csv 来 做 。 如 果 首 先 将 数据 从 数据 库 导 出 到 CSV x 
件 ， 然 后 应 用 SQL 查询 ， 那 么 不 只 会 慢 一 些 ， 而 且 从 CSV 数据 推测 得 到 的 
列 类 型 也 可 能 不 正确 。 


在 下 列 清洗 任务 中 ， 将 包含 多 个 涉及 csvsqU 的 解决 方案 。 基 本 的 命令 如 下 : 


$ seq 5 | header -a value | csvsql --query "SELECT SUM(value) AS sum FROM stdin" 
sum 
15 


如 果 将 标准 输入 传递 给 csvsql， 表 名 就 是 stdin。 列 类 型 是 从 数据 中 自动 推测 得 到 的 。 后 面 
将 看 到 ， 在 5.5.4 节 中 ， 你 也 可 以 指定 多 个 CSV 文件 。 记 住 csvsql 采用 SQLite 方言 。 尽 


E SQL 通常 比 其 他 方案 元 长 ， 但 它 的 灵活 性 要 好 得 多 。 如 果 你 已 经 了 解 怎样 用 SQL 处 理 
清洗 问题 ， 那 么 在 命令 行 中 使 用 SQL 没什么 丢脸 的 ! 


5.4 处 理 HTMLXML 和 JSON 


通过 第 3 章 知道 ， 我 们 获取 的 数据 可 能 有 各 种 各 样 的 格式 ， 甚 中 最 常见 的 是 纯 文 本 、 
CSV、 ISONI HTMLXML。 这 一 节 ， 我 们 将 展示 几 个 能 够 将 数据 从 一 种 格式 转换 为 另 一 
种 格式 的 命令 行 工具 。 数 据 转 换 有 两 种 原因 。 


首先 ， 数 据 时 常 呈现 为 表格 的 形式 ， 就 像 数 据 库 表 或 电子 表格 一 样 ， 这 是 因为 许多 可 视 化 
和 机 器 学 习 算 法 依赖 于 表格 。CSV 天 生 就 是 表格 形式 的 ， 但 JSON 和 HTML/XML 数据 可 
ATR BEY. 


其 次 ， 许 多 命令 行 工 具 ， 全 cut 和 grep 这 样 的 经 典 工具 ， 都 是 在 纯 文 本 上 进行 操作 
的 。 这 是 因为 文本 被 视 为 命令 行 工 具 间 的 通用 接口 。 而 且 ， 其 他 格式 也 确实 出 现 得 较 晚 。 
这 些 格式 每 个 都 可 以 被 看 作 纯 文本 ， 使 得 我 们 也 可 以 将 这 类 命令 行 工具 应 用 到 其 他 格式 。 


有 时 我 们 可 以 侥幸 在 结构 化 数据 上 成 功 应 用 经 典 工具 。 例 如 ， 通 过 将 ISON 数据 看 作 纯 文 
本 ， 可 以 用 sed 将 属性 “gender” 改 为 “sex 


$ sed -e 's/" Bender :/"sex":/g' data/users.json | fold | head -n 3 

T results":[{"user":{"sex":"female","name":{"title":"mrs","first":"kaylee","last 
"anderson"},"location" D street":"1779 washington ave","city":"cupertino","sta 

te" :"michigan","zip":"13931"}, "email" :"kaylee.anderson64(example.com", "password" 


像 许 多 其 他 命令 行 工 具 一 样 ，sed 并 不 利用 数据 的 结构 。 因 此 ， 最 好 使 用 能 对 数据 结构 加 
以 利用 的 命令 行 工具 (就 像 我 们 将 用 3a 所 做 的 那样 ) ， 或 者 首先 将 数据 转换 为 像 CSV 这 样 
的 表格 格式 ， 然 后 应 用 合适 的 命令 行 工具 。 


接 下 来 ， 我 们 将 通过 一 个 实际 的 使 用 示例 来 展示 从 HTML/XML 和 JSON 向 CSV 的 转 
换 。 这 里 将 使 用 的 命令 行 工具 是 curl, scrape (Janssens, 2014), xml2json (Parmentier, 
2014). jq (Dolan, 2014) 和 json2csv (Czebotar, 2014), 


维基 百科 有 丰富 的 信息 ， 其 中 许多 信息 是 排序 成 表格 的 ， 可 以 被 视 为 数据 集 。 例 如 ， 页 面 
http://en.wikipedia.org/wiki/List of countries and territories by border/area ratio 包含 了 国家 
和 地 区 的 清单 ， 还 有 它们 的 边境 线 长 度 、 面 积 以 及 两 者 的 比率 。 假 设 我 们 想 分 析 这 个 数据 
集 。 本 节 将 带 你 学 习 所 有 必要 的 步骤 以 及 每 个 步骤 对 应 的 命令 。 


我 们 感 兴趣 的 数据 集 是 磐 入 在 HTML 中 的 。 我 们 的 目的 是 最 终 得 到 能 够 处 理 的 数据 集 的 表 
示 。 第 一 步 就 是 使 用 curl 来 下 载 HTML: 


$ curl -sL 'http://en.wikipedia.org/wiki/List of countries and territories 'V 
» 'by border/area ratio' » wiki.html 
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选项 -s 使 得 curl 进入 静默 模式 ， 除 了 实际 的 HTML 不 输出 任何 其 他 信息 。HTML 保存 到 
名 为 data/wiki.html 的 文件 中 。 下 面 就 是 该 文件 前 10 行 的 内 容 : 


$ head -n 10 data/wiki.html | cut -c1-79 

<!DOCTYPE html» 

«html Lang="en" dirz"ltr" class="client-nojs"> 

«head» 

«meta charset="UTF-8" /><title>List of countries and territories by border/area 
«meta http-equiv="X-UA-Compatible" content="IE=EDGE" /><meta name-"generator" c 
«link rel="alternate" type="application/x-wiki" title-"Edit this page" href="/w 
«link rel="edit" title-"Edit this page" hrefz"/w/index.php?title-List of countr 
«link rel="apple-touch-icon" hrefz"//bits.wikimedia.org/apple-touch/wikipedia.p 
«link rel="Shortcut icon" hrefz"//bits.wikimedia.org/favicon/wikipedia.ico" /> 

«link rel="Search" type-"application/opensearchdescriptionexml" href="/w/opense 


这 看 起 来 是 有 顺序 的 。( 注 意 ， 每 行 我 们 只 显示 了 前 79 个 字符 ， 以 使 输出 适合 页 面 宽度 。) 


使 用 浏览 器 的 开发 工具 ， 能 够 确定 所 感 兴趣 的 HTML 根 元 素 是 类 wikitable 的 <table>, 
这 使 得 我 们 可 以 用 grep 来 查看 我 们 感 兴趣 的 部 分 (下 面 的 -A 选项 指定 我 们 希望 在 匹配 行 
之 后 看 到 的 行 数 )。 


下 一 


$ < wiki.html grep wikitable -A 21 
«table class="wikitable sortable"> 
<tr> 

<th>Rank</th> 

<th>Country or territory</th> 
<th>Total Length of land borders (km)</th> 
<th>Total surface area (km?)</th> 
<th>Border/area ratio (km/km2)</th> 
</tr> 

<tr> 

<td>1</td> 

<td>Vatican City</td> 

<td>3.2</td> 

<td>0.44</td> 

<td>7.2727273</td> 

</tr> 

<tr> 

<td>2</td> 

<td>Monaco</td> 

<td>4.4</td> 

<td>2</td> 

<td>2.2000000</td> 

</tr> 


步 是 从 HTML 文件 中 提取 必要 的 元 素 。 这 里 我 们 使 用 scrape TH: 


$ < wiki.html scrape -b -e 'table.wikitable > tr:not(:first-child)' V 
» » table.html 

$ head -n 21 data/table.html 

<!DOCTYPE html» 

<html> 


«body» 
<tr><td>1</td> 


<td>Vatican City</td> 


<td>3.2</td> 
<td>0.44</td> 


<td>7.2727273</td> 


</tr> 
<tr><td>2</td> 
<td>Monaco</td> 
<td>4.4</td> 
<td>2</td> 


<td>2.2000000</td> 


</tr> 
<tr><td>3</td> 


<td>San Marino</td> 


<td>39</td> 
<td>61</td> 


<td>0.6393443</td> 


</tr> 


传递 给 -e 选 项 (代表 “表达 式 ”， 即 expression) 的 值 就 是 所 谓 的 CSS 选择 器 (selector), 
这 个 语法 经 常用 来 设计 网 页 的 样式 ， 但 也 可 以 用 它 从 HTML 中 选择 特定 的 元 素 。 这 里 ， 我 
们 希望 选择 属于 类 wikitable 的 表格 中 所 有 的 <tr> 元 素 或 行 ( 也 就 是 除了 第 一 行 的 其 他 


行 )。 这 正 是 我 们 感 兴趣 的 表格 。 不 想 要 第 一 行 (通过 :not(first-child) 指定 ) 的 原 


因 是 


我 们 不 想 要 表格 的 头 部 。 这 样 得 到 的 结果 数据 集 的 每 一 行 代表 一 个 国家 或 地 区 。 你 会 看 


到 ， 现 在 我 们 将 所 查找 的 <tr> 元 素 封装 在 <html> 和 <body> 元 素 中 (因为 我 


选项 )。 这 用 来 确保 下 一 个 工具 xml2json 能 够 对 它 进行 处 理 。 


顾名思义 ，xml2json 将 XML (fl HTML) 转换 为 ISON 格式 。 


$ < table.html xml2json > table.json 


$ « table.json jq 
"html": { 
"body": { 
a [ 


"ta": [ 


"$t": 


}, 
{ 


"$t": 


"$t": 


"$t": 


'.' | head -n 25 


"q" 


"Vatican City" 


"3.2" 


"0.44" 


门 指定 了 -b 
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"St": "7.2727273" 


] 
}, 
{ 
"ta": [ 


将 HTML 转换 为 JSON 格式 的 原因 在 于 有 一 个 处 理 JSON 的 非常 强大 的 工具 jgq。 下 列 命令 
提取 JSON 数据 的 特定 部 分 ， 将 其 改造 为 我 们 能 处 理 的 形式 : 


$ < data/table.json jq -c '.html.body.tr[] | (country: .td[1][],border:'\ 
> '.td[2][], surface: .td[3][]}' > countries.json 

$ head -n 10 data/countries.json 

("surface":"0.44" ,"border":"3.2", "country": "Vatican City") 
("surface":"2","border":"4.4", "country" : "Monaco" } 
("surface":"61", "border" :"39","country":"San Marino") 
("surface":"160" ,"border":"76" ,"country" :" Liechtenstein") 
{"surface":"34","border":"10.2","country":"Sint Maarten (Netherlands)") 
("surface":"468" ,"border" :" 120.3", "country" :"Andorra"] 
{"surface":"6","border":"1.2","country":"Gibraltar (United Kingdom)"} 
{"surface":"54","border":"10.2","country":"Saint Martin (France)"} 
{"surface":"2586","border":"359", "country": "Luxembourg" 
{"surface":"6220","border":"466","country": "Palestinian territories" 


现在 有 点 眉目 了 。JSON 是 非常 流行 的 、 优 点 众多 的 数据 格式 ， 但 就 我 们 的 目的 而 言 ， 最 
好 还 是 使 用 CSV 格式 的 数据 。 工 具 json2csv 能 将 数据 从 JSON 转换 为 CSV 格式 : 


$ < countries.json json2csv -p -k border,surface > countries.csv 
$ head -n 11 countries.csv | csvlook 


| —-— | 
| border | surface | 
| e | 
| 3.2 | 0.44 | 
| 4.4 | 2 | 
| 39 | 61 | 
| 76 | 160 | 
| 10.2 | 34 | 
| 120.3 | 468 | 
| 1.2 | 6 | 
| 10.2 | 54 | 
| 359 | 2586 | 
| 466 | 6220 | 
| eM | 


现在 ， 数 据 是 我 们 可 以 处 理 的 形式 了 。 从 维基 百科 页 面 到 CSYV 数据 集 花费 了 不 少 步 骤 。 
但 是 ， 当 将 所 有 这 些 命令 组 合 为 一 个 命令 时 ， 你 就 会 发 现 它 实际 上 非常 简洁 ， 并 且 有 具有 很 
强 的 表达 能 


curl -sL 'http://en.wikipedia.org/wiki/List of countries'V 
' and territories by border/area ratio' | 

scrape -be 'table.wikitable » tr:not(:first-child)' | 
xml2json | jq -c '.html.body.tr[] | (country: .td[1][],'\ 
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> 'border: .td[2][], surface: .td[3][], ratio: .td[4][]}' | 
> json2csv -p -k=border,surface | head -n 11 | csvlook 


| e | 
| border | surface | 
| ee | 
| 3.2 | 0.44 | 
| 4.4 | 2 | 
| 39 | 61 | 
| 76 | 160 | 
| 10.2 | 34 | 
| 120.3 | 468 | 
| 1.2 | 6 | 
| 10.2 | 54 | 
| 359 | 2586 | 
| 466 | 6220 | 
| e | 


将 HTML/XML 转换 为 ISON 再 转换 为 CSV 的 演示 结束 了 。 尽 管 jq 可 以 执行 更 多 操作 ， 
尽管 有 处 理 XML 数据 的 专用 工具 ， 但 以 我 们 的 经 验 ， 尽 快 地 将 数据 转换 为 CSV 格式 往往 
比较 好 。 这 样 ， 你 可 以 花 更 多 的 时 间 来 精通 通用 的 命令 行 工具 而 不 是 非常 专用 的 工具 。 


5.5 CSV 的 常见 清洗 操作 
5.5.1 列 的 提取 和 重 排序 


可 以 用 命令 行 工 具 csvcut (Groskopf，2014) 对 列 进行 提取 和 重 排序 。 例 如 ， 只 保留 Iris 
数据 集中 包含 数值 的 列 ， 并 对 中 间 两 列 重新 排序 : 


$ < iris.csv csvcut -c sepal length,petal length,sepal width,petal width | 
» head -n 5 | csvlook 
ļ--------------- +-------------- 
| sepal_length | petal_length 


也 可 以 用 -C (RÆ "HP", Bll complement) 指定 想 要 忽略 的 列 : 


$ < iris.csv csvcut -C species | head -n 5 | csvlook 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
] 
1 
: 

+ 
1 
1 
' 
1 
1 
1 
1 
1 
1 
' 
1 
1 
1 
1 


petal length | petal width | 


+ 一 一 一 一 + 一 + 
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这 里 ， 所 包含 的 列 保持 相同 的 顺序 。 除 了 列 名 ， 也 可 以 指定 列 的 索引 号 ， 该 索引 号 从 1 开 
始 。 例 如 ， 这 使 得 你 可 以 只 选择 奇数 列 。( 假 设 你 需要 它 ! ) 


$ echo 'a,b,c,d,e,f,g,h,i\n1,2,3,4,5,6,7,8,9' | 
» csvcut -c $(seq 12 9 | paste -sd,) 
3,C,0,9,i 

1,3,5, 0,9 


如 果 你 确信 任何 值 中 都 没有 逗号 ， 那 还 可 以 使 用 cut 来 提取 列 。 注 意 ，cut 并 不 会 对 列 进 
行 排序 ， 如 下 列 命令 所 示 : 


echo 'a,b,c,d,e,f,g,h,i\n1,2,3,4,5,6,7,8,9' | cut -d, -f 5,1,3 
,e 
5 


你 可 以 看 到 ， 指 定 列 的 顺序 无 关 紧 要 ， 使 用 cut 会 始终 保持 原来 的 列 顺序 。 为 了 完整 性 起 
见 ， 让 我 们 也 看 一 下 用 SQL 方法 对 Tris 数据 中 的 数值 列 进行 提取 和 重 排序 的 结果 : 


$ < iris.csv csvsql --query "SELECT sepal length, petal length, "V 
» "sepal width, petal width FROM stdin" | head -n 5 | csvlook 
|--------------- +-------------- I I2 | 
| sepal length petal length | sepal width | petal width | 


5.5.2 行 过 滤 

与 纯 文 本 文件 相 比 ， 对 CSV 文件 进行 行 过 滤 的 不 同 之 处 是 ， 你 可 能 想 将 过 滤 只 限定 于 特 
定 列 的 值 。 基 于 位 置 的 过 滤 本 质 上 是 相 同 的 ， 但 你 必须 考虑 到 CSV 文件 的 第 一 行 通常 是 
头 部 。 记 住 ， 如 果 想 要 保留 头 部 ， 你 始终 可 以 使 用 body 命令 行 工 具 : 


$ seq 5 | sed -n '3,5p' 


ns 


$ seq 5 | header -a count | body sed -n '3,5p' 
count 


4 
5 


当 涉及 在 特定 列 中 基于 特定 模式 来 过 让 时 ， 可 以 使 用 csvgrep 和 awk， 当然 也 可 以 使 用 
csvsql。 例 如 ， 要 排除 所 有 聚会 规模 不 大 于 4 人 的 账单 : 


$ csvgrep -c size -i -r "[1-4]" tips.csv | csvlook 

|-------- +------ +-------- +-------- +------ +-------- +------- | 
| bill | tip | sex | smoker | day | time | size | 
|-------- +------ +-------- +-------- +------ +-------- +------- | 
| 29.8 | 4.2 | Female | No | Thur | Lunch | 6 | 
| 34.3 | 6.7 | Male | No | Thur | Lunch | 6 | 
| 41.19 | 5.0 | Male | No | Thur | Lunch | 5 | 
| 27.05 | 5.0 | Female | No | Thur | Lunch | 6 | 
| 29.85 | 5.14 | Female | No | Sun | Dinner | 5 | 
| 48.17 | 5.0 | Male | No | Sun | Dinner | 6 | 
| 20.69 | 5.0 | Male | No | Sun | Dinner | 5 | 
| 30.46 | 2.0 | Male | Yes | Sun | Dinner | 5 | 
| 28.15 | 3.0 | Male | Yes | Sat | Dinner | 5 | 
|-------- +------ +-------- +-------- +------ +-------- +------- | 


awk 和 csvsql 也 都 可 以 用 来 进行 数值 比较 。 例 如 ， 要 提取 周 六 或 周 日 中 超过 40 美元 的 所 
有 账单 : 


$ < tips.csv awk -F, '($1 > 40.0) && ($5 ~ /S/)' | csvlook 


|-------- +------ +-------- +----- +----- +-------- +----| 
| 48.27 | 6.73 | Male | No | Sat | Dinner | 4 | 
|-------- +------ +-------- +----- +----- +-------- +----| 
| 44.3 | 2.5 | Female | Yes | Sat | Dinner | 3 | 
| 48.17 | 5.0 | Male | No | Sun | Dinner | 6 | 
| 50.81 | 10.0 | Male | Yes | Sat | Dinner | 3 | 
| 45.35 | 3.5 | Male | Yes | Sun | Dinner | 3 | 
| 40.55 | 3.0 | Male | Yes | Sun | Dinner | 2 | 
| 48.33 | 9.0 | Male |No | Sat | Dinner | 4 | 
|-------- +------ +-------- +----- +----- +-------- +----| 


csvsql 解决 方案 要 繁琐 些 ， 但 更 健壮 ， 因 为 它 使 用 的 是 列 名 而 不 是 列 索 引号 : 


$ < tips.csv csvsql --query "SELECT * FROM stdin "\ 
> "WHERE bill > 40 AND day LIKE '%S%'" | csvlook 


|-------- +------ +-------- +-------- +----- +-------- +------- | 
| bill | tip | sex | smoker | day | time | size | 
|-------- +------ +-------- +-------- +----- +-------- +------- | 
| 48.27 | 6.73 | Male | 0 | Sat | Dinner | 4 | 
| 44.3 | 2.5 | Female | 1 | Sat | Dinner | 3 | 
| 48.17 | 5.0 | Male | | Sun | Dinner | 6 | 
| 50.81 | 10.0 | Male | 1 | Sat | Dinner | 3 | 
| 45.35 | 3.5 | Male |1 | Sun | Dinner | 3 | 
| 40.55 | 3.0 | Male |1 | Sun | Dinner | 2 | 
| 48.33 | 9.0 | Male | | Sat | Dinner | 4 | 
|-------- +------ +-------- +-------- +----- +-------- +------- | 


需要 注意 的 是 ，SQL 查询 中 WHERE 子 名 的 灵活 性 是 其 他 命令 行 工具 难以 匹敌 的 ， 因 为 SQL 
可 以 操作 日 期 和 集合 ， 并 将 子 句 进行 复杂 的 组 合 。 


5.5.3 列 合并 
列 合并 在 我 们 感 兴趣 的 值 散 布 在 多 个 列 中 时 很 有 用 。 涉 及 的 列 可 能 是 日 期 (年 、 月 、 日 可 
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能 分 别 是 独立 的 列 ) RAFE ( 姓 和 名 分 别 是 独立 的 列 )。 让 我 们 考虑 第 二 种 情况 。 


输入 的 CSV 是 同一 个 时 代 的 作曲 家 的 列表 。 假 设 我 们 的 任务 是 将 姓 和 名 组 合 为 全 名 。 为 
此 我 们 将 提出 四 种 不 同 的 方法 : sed、awk、cols/tr 和 csvsql。 让 我 们 看 一 下 输入 的 CSV: 


$ < Names.csv csvlook 


|----- +----------- I +------- | 
| id | last name | first name | born | 
|----- I0 I +------- | 
| 1 | Williams | John | 1932 | 
| 2 | Elfman | Danny | 1953 | 
| 3 | Horner | James | 1953 | 
|4 | Shore | Howard | 1946 | 
| 5 | Zimmer | Hans | 1957 | 
|----- I0 I1 +------- | 


第 一 种 方法 sed 使 用 分 为 两 部 分 的 表达 式 。 第 一 部 分 是 替换 头 部 ， 第 二 部 分 是 从 第 二 行 起 
开始 应 用 的 带 有 反 向 引用 的 正则 表达 式 : 


$ < names.csv sed -re '1s/.*/id,full_name,born/g;'\ 


> '2,$5/(.*),(.*),(.92, C.) /VL,A3 \2,\4/g' | csvlook 


|----- +--------------- +------- | 
| id | full name | born | 
|----- I +------- | 
| 1 | John williams | 1932 | 
|2 | Danny Elfman | 1953 | 
| 3 | James Horner | 1953 | 
|4 | Howard Shore | 1946 | 
| 5 | Hans Zimmer | 1957 | 
|----- I +------- | 
awk 方法 如 下 所 示 : 


$ < names.csv awk -F, 'BEGIN{OFS=","; print "id,full_name,born"}'\ 
> '{if(NR > 1) {print $1,593" "$2,$4}}' | csvlook 


|----- +--------------- +------- | 
| id | full name | born | 
|----- +--------------- +------- | 
| 1 | John williams | 1932 | 
| 2 | Danny Elfman | 1953 | 
| 3 | James Horner | 1953 | 
|4 | Howard Shore | 1946 | 
| 5 | Hans Zimmer | 1957 | 
|----- I-- +------- | 


cols 方法 与 tr 工具 组 合 使 用 : 


$ < names.csv cols -c first name,last name tr \",\" \" \" | 
» header -r full name,id,born | csvcut -c id,full name,born | csvlook 


|----- +--------------- +------- | 

| id | full name | born | 

|----- +--------------- +------- | 
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John Williams | 1932 
Danny Elfman 1953 
James Horner 


Hans Zimmer 


| | 
| | 
| | 
| Howard Shore | 1946 
| | 
+ + 


TERS, csvsql 利用 SQLite 作为 数据 库 来 执行 查询 ， 以 及 || 代表 拼接 : 


$ < names.csv csvsql --query "SELECT id, first name || 
» "AS full name, born FROM stdin" | csvlook 


|| last name "X 


|----- es I | 
| id | full name | born | 
|----- fencer eee ee eee eee eee eee I | 
| 1 | John Williams | 1932 | 
|2 | Danny Elfman | 1953 | 
| 3 | James Horner | 1953 | 
| 4 | Howard Shore | 1946 | 
| 5 | Hans Zimmer | 1957 | 
|----- eM +------- | 


如 有 果 last name PAE E ZUM) 清楚 起 见 ， 让 我 们 看 一 下 初始 的 输入 CSV: 


$ cat names-comma.csv 

id,last name,first name,born 
1,Williams,John,1932 
2,Elfman,Danny,1953 
3,Horner,James,1953 

4, Shore,Howard,1946 
5,Zimmer,Hans,1957 
6,"Beethoven, van",Ludwig,1770 


看 起 来 前 三 种 方法 都 无 能 为 力 ， 其 失败 原因 各 不 相同 。 只 有 csvsql 能 够 将 first name 和 
full name 正确 地 组 合 起 来 : 


$ < names-comma.csv sed -re '1s/.*/id,full_name,born/g;'\ 

> '2,$8/(.*),(.90, (NL \2,\4/g' | tail -n 1 
6,"Beethoven,Ludwig van" ,1770 

$ « names-comma.csv awk -F, 'BEGIN{OFS=","; print "id,full_name,born"}'\ 
> '{if(NR > 1) (print $1,$3" "$2,$4}}' | tail -n 1 

6, van" "Beethoven,Ludwig 


$ < names-comma.csv cols -c first name,last name tr \",\" \" \" | 

» header -r full name,id,born | csvcut -c id,full name,born | tail -n 1 
6,"Ludwig ""Beethoven van""",1770 

$ « names-comma.csv csvsql --query "SELECT id, first name || ' ' 
» " AS full name, born FROM stdin" | tail -n 1 

6,"Ludwig Beethoven, van",1770 


|| last name" 


$ < names-comma.csv Rio -e 'dfS$full name <- paste(dfSfirst name,df$last name);'V 
» 'df[c("id","full name","born")]' | tail -n 1 
6,"Ludwig Beethoven, van",1770 


数据 清洗 | 69 


等 一 下 ! 最 后 一 条 命令 是 什么 ?是 R 语言 吗 ?事实 上 ， 确 实 是 的 。 这 里 的 R 代码 是 通过 命 
令 行 工具 Rio (Janssens, 2014) 来 评估 的 。 在 这 个 时 候 我 们 只 能 告诉 你 :这 种 方法 也 能 成 
功 将 两 个 列 合并 。 后 面 我 们 会 讨论 这 个 奇妙 的 工具 。 


5.5.4 多 个 CSV 文 件 的 合并 


1. 垂直 拼接 

垂直 拼接 在 有 些 情况 下 可 能 是 必要 的 ， 例 如 ， 数 据 集 是 每 天 生成 的 ， 或 者 每 个 数据 集 代 表 
一 个 不 同 的 市 场 或 产品 。 让 我 们 来 模拟 后 者 ， 将 我 们 钟爱 的 Iris 数据 集 分 解 成 三 个 CSV X 
件 ， 这 样 就 有 了 可 以 再 次 组 合 的 文件 。 我 们 将 使 用 fieldsplit (Hinds et al., 2010), 3x 
CRUSH 命令 行 工 具 套 件 的 一 部 分 。 


$ < iris.csv fieldsplit -d, -k -F species -p . -s .csv 


这 里 的 选项 分 别 是 ，-d 指定 分 隔 符 ，-k 指定 我 们 想 要 保留 每 个 文件 的 头 部 ，-F 指定 某 个 
列 ， 其 值 决定 了 允许 的 输出 文件 ，-p 指定 相应 的 输出 文件 ，-s 指定 文件 名 后 级 。 由 于 Iris 
数据 集中 的 spectes 列 包含 三 个 不 同 的 值 ， 我 们 最 终 得 到 三 个 CSV 文件 ， 每 个 文件 有 50 
行 和 一 个 头 部 : 


$ wc -l Iris-*.csv 
51 Iris-setosa.csv 
51 Iris-versicolor.csv 
51 Iris-virginica.csv 
153 total 


tr 


可 以 用 cat 只 向 后 拼接 文件 ， 并 用 header -d 命令 把 除了 第 一 个 文件 之 外 的 所 有 文件 的 头 
部 删除 ， 如 下 所 示 : 


$ cat Iris-setosa.csv <(< Iris-versicolor.csv header -d) V 

> «(« Iris-virginica.csv header -d) | sed -n '1p;49,54p' | csvlook 
ļl--------------- +------------5 
| sepal_length sepal_width 


| 

党 

| Iris-setosa 

| Iris-setosa 

| Iris-setosa 

| Iris-versicolor 
| Iris-versicolor 
| 

+ 


+ 
| 
n 
| 
| 
| 
| 
| 
| Iris-versicolor 
+ 


+ 一 一 一 一 一 一 + 一 + 


注意 ， 我 们 使 用 sed 只 是 为 了 打印 第 二 个 文件 的 头 部 和 前 三 行 的 主体 信息 ， 来 解释 成 功 执 
行 的 命令 的 结果 。 除 了 这 种 方法 ， 还 可 以 使 用 csvstack (Groskopf, 2014), ， 这 种 方法 更 简 
单 ， 而 且 不 容易 出 错 。 


$ csvstack Iris-*.csv | sed -n '1p;49,54p' | csvlook 
ļ--------------- +------------- 
| sepal length | sepal width 


"E | 
species | 


Iris-setosa 
Iris-setosa 
Iris-setosa 
Iris-versicolor 
Iris-versicolor 


" 
| 
+ 
| 
| 
| 
| 
| 
| Iris-versicolor 
+ 


+ 一 一 一 一 一 一 + 一 + 


如 果 列 spectes 列 不 存在 ， 可 以 用 csvstack 基于 文件 名 创建 一 个 新 列 : 


$ csvstack Iris-*.csv -n species --filenames 
或 者 用 -g 指定 组 名 : 


$ csvstack Iris-*.csv -n class -g a,b,c | csvcut -C species 
> sed -n '1p;49,54p' | csvlook 


ROTER EDS | 
petal width | 


+ + 
| | 
+ + 
| | 
| | 
| | 
| | 
| | 
| | 
十 十 


最 前 面 加 入 了 新 列 class。 如 果 你 想 要 改变 列 顺序 ， 可 以 如 本 市 前 面 所 讲 的 那样 使 用 csvcut。 


2. 水 平 拼接 
假设 你 有 三 个 CSV 文件 ， 想 要 把 它们 拼接 在 一 起 。 我 们 在 管道 的 中 间 使 用 tee (Parker, 
Stallman & MacKenzie, 2012) 来 保存 csvcut 的 结果 : 


$ < tips.csv csvcut -c bill,tip | tee bills.csv | head -n 3 | csvlook 


|- eM | 
| bill | tip | 
| e | 
| 16.99 | 1.01 | 
| 10.34 | 1.66 | 
| eM | 


$ < tips.csv csvcut -c day,time | tee datetime.csv 
> head -n 3 | csvlook 


|- M | 
| day | time | 
|--M | 
| Sun | Dinner | 
| Sun | Dinner | 
| | 
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$ « tips.csv csvcut -c sex,smoker,size | tee customers.csv 
» head -n 3 | csvlook 


| eM e | 
| sex | smoker | size | 
| eM e | 
| Female | No | 2 | 
| Male | No | 3 | 
| eM eM | 


|-------- +------ +-------- +-------- +------ +----- +--------- 
| bill | tip | sex | smoker | size | day | time | 
| -------- +------ +-------- +-------- +------ +----- +--------- 
| 16.99 | 1.01 | Female | No | 2 | Sun | Dinner | 
| 10.34 | 1.66 | Male | No | 3 | Sun | Dinner | 
|-------- +------ +-------- +-------- +------ +----- +--------- 


-d 选项 告诉 paste FIG SHEA IA. 


3. 连接 
有 时 数据 不 能 简单 地 通过 垂直 或 水 平 拼接 来 合并 。 在 某 些 情况 下 ， 特 别 是 关系 数据 库 中 ， 
为 了 减少 元 余 度 ， 数 据 分 散在 多 个 表 或 文件 中 。 假 设 我 们 想 要 扩展 Tris 数据 集 ， 使 其 包含 
关于 三 类 Iris 鲜花 的 更 多 信息 ， 扩 展 的 信息 称 为 USDA 标识 符 。 这 样 我 们 就 有 了 一 个 关于 
这 些 标识 符 的 单独 的 CSV 文件 : 


t 


$ csvlook irismeta.csv 


l------------------ IE I | 
| species | wikipedia_url | usda_id | 
|--- 4 +---------- | 
| Iris-versicolor | http://en.wikipedia.org/wiki/Iris versicolor | IRVE2 | 
| Iris-virginica | http://en.wikipedia.org/wiki/Iris_virginica | IRVI | 
| Iris-setosa | | IRSE | 
|---- +- +---------- | 


这 个 数据 集 与 Tris 数据 集 的 共同 点 是 都 有 species 列 。 可 以 用 csvjoin (Groskopf, 2014) 
将 两 个 数据 集 连 接 起 来 : 


$ csvjoin -c species iris.csv irismeta.csv | csvcut -c sepal_length,\ 
» sepal width,species,usda id | sed -n '1p;49,54p' | csvlook 
|--------------- +------------- +----------------- +---------- | 
| sepal length species 


| 

+ 

| Iris-setosa 

| Iris-setosa 

| Iris-setosa IRSE 
| 

| 

| 

+ 


Iris-versicolor | IRVE2 


| 
| 
| 
Iris-versicolor | IRVE2 | 
| 
Iris-versicolor | IRVE2 | 


当然 ， 也 可 以 使 用 SQL 方法 ， 即 用 csvsqt， 这 种 方法 照例 稍 显 匈 长 (但 可 能 要 灵活 得 多 ) : 


$ csvsql --query 'SELECT i.sepal length, i.sepal width, i.species, m.usda id '\ 
> 'FROM iris i JOIN irismeta m ON (i.species = m.species)' \ 
> 


iris.csv irismeta.csv | sed -n '1p;49,54p' | csvlook 
ļ--------------- +----- I1 Ie | 
| sepal length | sepal width | species | usda id | 
|--------------- +------------- I I | 
| 4.6 | 3.2 | Iris-setosa | IRSE | 
| 523 | 3.7 | Iris-setosa | IRSE | 
| 5.0 | 3.3 | Iris-setosa | IRSE | 
| 7.0 | 3.2 | Iris-versicolor | IRVE2 | 
| 6.4 | 3.2 | Iris-versicolor | IRVE2 | 
| 6.9 | 3.1 | Iris-versicolor | IRVE2 | 
ļ--------------- +------------- +----------------- +---------- | 


5.6 延伸 阅读 


。 Molinaro, A. (2005). SOL Cookbook. O'Reilly Media. 
。 Goyvaerts, J., & Levithan, S. (2012). Regular Expressions Cookbook (2nd Ed.). O'Reilly Media. 
e Dougherty, D., & Robbins, A. (1997) . sed & awk (2nd Ed.). O'Reilly Media. 
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第 6 章 


管理 数据 工作 流 


我 们 希望 ， 到 目前 为 止 你 已 经 意识 到 命令 行 是 做 数据 科学 工作 的 非常 方便 的 环境 。 你 可 
已 经 注意 到 ， 由 于 使 用 命令 行进 行 数据 科学 工作 ， 我 们 需要 : 


。 调用 许多 不 同 的 命令 行 
。 创建 定制 的 和 临时 的 命令 行 工 具 
。 获取 和 生成 许多 中 间 文 件 


这 个 过 程 具有 探索 性 质 ， 导 致 我 们 的 工作 流 往 往 十 分 混乱 ， 这 使 得 记录 以 往 的 工作 变 得 很 
困难 。 因 此 ， 能 够 由 自己 或 其 他 人 重 现 我 们 曾经 执行 的 步骤 十 分 重要 。 例 如 ， 当 继续 进行 
几 周 前 的 项 目 时 ， 我 们 很 有 可 能 已 经 忘记 了 对 哪些 文件 ， 以 什么 顺序 ， 用 什么 参数 ， 运 行 
了 哪些 命令 。 如 果 是 这 样 ， 试 想 将 分 析 工 作 转 交 给 你 的 搭档 会 多 么 困难 。 


可 以 通过 发 掘 Bash 的 历史 数据 来 找 回 一 些 丢 失 的 命令 ,但 这 显然 不 是 一 个 好 办 法 。 更 好 
的 办 法 是 将 命令 保存 到 Bash 脚本 ， 如 run.sh。 这 使 你 和 你 的 搭档 至 少 可 以 重 现 分 析 工 作 。 
但 是 ，shell 脚本 并 非 最 理想 的 方法 ， 这 是 因为 : 


。 它 难 以 阅读 和 维护 ， 
。 步骤 之 间 的 依赖 关系 不 清晰; 
。 所 有 步骤 都 一 直 运 行 ， 这 样 效率 不 高 ， 有 时 是 不 可 取 的 。 


= 


这 时 Drake (Factual, 2014) 就 可 以 派 上 用 场 。Drake 是 由 Factual 创建 的 命令 行 工 具 ， 它 
使 你 可 以 : 


。 以 输入 和 输出 的 依赖 关系 的 形式 将 数据 工作 流 步 又 形式 化 
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。 使 用 命令 行 运行 工作 流 的 具体 步 又 
。 使 用 内 联 代 码 (例如 Pyhon 和 及) 
。 从 外 部 数据 源 存储 和 获取 数据 (例如 S3 和 HDFS) 


6.1 概述 
用 Drake 来 管理 数据 工作 流 是 本 章 的 主题 。 你 将 学 到 ; 


。 用 所 谓 的 Drakefile 来 定义 工作 流 
。 用 输入 和 输出 的 依赖 关系 的 形式 来 考虑 工作 流 
。 构建 具体 目标 


6.2 Drake 简介 


Drake 围绕 数据 和 其 中 的 依赖 关系 来 组 织 命令 的 执行 。 数 据 处 理 步 又 被 形式 化 为 一 个 单独 
的 文本 文件 (工作 流 )。 每 个 步骤 通常 有 一 个 或 多 个 输入 和 输出 。Drake 自动 解析 它们 之 间 
的 依赖 关系 ， 并 确定 需要 以 什么 顺序 运行 哪些 命令 。 


这 意味 着 ， 如 果 有 一 个 需要 运行 10 分 钟 的 SQL 查询 ， 只 有 当 结 果 消 失 或 查询 后 来 被 修 
改 时 ， 才 必须 要 执行 该 查询 。 同 样 ， 如 果 你 想 要 运行 (或 重新 运行 ) 一 个 具体 的 步骤 ， 
Drake 只 会 考虑 运行 (或 重新 运行 ) 这 个 步骤 所 依赖 的 步骤 。 这 可 以 为 你 节省 大 量 时 间 。 

拥有 形式 化 的 工作 流 带 来 的 好 处 是 ， 你 可 以 在 儿 周 之 后 轻易 恢复 自己 的 项 目 ， 并 可 以 与 其 


他 人 合作 。 即 使 你 因为 永远 无 法 知道 何 时 会 再 次 运行 某 些 步骤 ， 或 者 何 时 在 其 他 的 项 目 中 
重新 使 用 某 些 步骤 ， 从 而 认为 这 只 是 个 一 次 性 的 项 目 ， 我 们 也 强烈 建议 你 使 用 Drake。 


6.3 Drake 的 安装 


Drake 有 相当 多 的 依赖 关系 ， 这 使 得 它 的 安装 过 程 相当 复杂 。 在 下 面 的 内 容 中 ， 我 们 假设 
你 使 用 的 是 Ubuntu 操作 系统 。 


如 果 你 正在 使 用 数据 科学 工具 箱 ， 那 么 Drake 已 经 安装 完毕 ， 你 大 可 以 跳 过 


T. 


Drake 是 用 Clojure 程序 语言 编写 的 ， 这 意味 着 它 运行 于 Java 虚拟 机 (VM) ZZ E. "IDA 
找到 预 构建 的 JAR 文件 ， 但 由 于 Drake 的 开发 很 活跃 ， 因 此 我 们 从 源 代码 来 构建 Drake. 
这 样 ， 你 就 需要 安装 Leiningen: 
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$ sudo apt-get install openjdk-6-jdk 
$ sudo apt-get install leiningen 


然后 ， 从 Factual 中 复制 Drake JÆ : 


$ git clone https://github.com/Factual/drake.git 


T 


并 用 Leiningen 构建 JAR 文件 : 


$ cd drake 
$ lein uberjar 


这 时 创建 了 drake.jar 文件 。 将 这 个 文件 复制 到 你 PATH 中 的 某 个 目录 ， 例 如 -/ bin: 
$ mv drake.jar ~/.bin/ 
这 时 应 该 已 经 能 够 运行 Drake T: 


$ cd ~/.bin/ 

$ java -jar drake.jar 
这 并 不 见得 方便 ， 有 两 个 原因 : (1) JVM 的 启动 时 间 比 较 长 ，(2) 只 能 从 这 个 目录 中 运行 
Drake。 我 们 建议 你 安装 Drip, XÆ JVM 的 启动 器 ， 比 以 java 命令 启动 得 更 快 。 首 先 ， 
从 Flatland 复制 Drip JÆ: 


$ git clone https://github.com/flatland/drip.git 
$ cd drip 
$ make prefix--/.bin install 


然后 创建 Bash 脚本 ， 使 你 可 以 在 任何 地 方 运 行 Drake: 


$ cd ~/.bin 

$ cat «« 'EOF' > drake 

> #!/bin/bash 

> drip -cp $(dirname $0)/drake.jar drake.core "Sq" 
> EOF 

$ chmod +x drake 


要 验证 是 否 已 经 正确 安装 了 Drake 和 Drip， 最 好 从 其 他 的 目录 运行 下 列 命令 : 


$ drake --version 
Drake Version 0.1.6 


Drip 能 够 加 速 Java 是 因为 它 在 JVM 运行 一 次 之 后 保留 了 JVM 实例 。 因 此 ， 
你 会 注意 到 只 有 第 二 次 之 后 的 运行 才 会 加 速 。 
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6.4 获取 古 腾 堡 计 划 中 下 载 最 多 的 电子 书 


本 章 后 面 的 内 容 中 ， 将 使 用 下 列 任务 作为 运行 示例 。 目 标 是 将 用 来 解决 该 任务 的 命令 转变 
为 Drake 工作 流 。 我 们 从 简单 之 处 着 手 ， 然 后 为 了 解释 Drake 的 各 种 概念 和 语法 ， 逐 步 过 
渡 到 更 高 级 的 工作 流 。 


古 腾 堡 计划 是 发 起 于 1971 年 的 雄心 勃勃 的 项 目 ， 已 经 将 超过 42 000 本 书 存档 和 电子 化 ， 
并 全 部 免费 在 线 提供 。 在 该 计划 的 网 站 上 可 以 找到 下 载 最 多 的 前 100 本 电子 书 。 现 在 ， 假 
设 我 们 对 下 载 最 多 的 前 5 本 感 兴 趣 。 由 于 该 清单 可 以 以 HTML 形式 获取 (已 经 格式 化 ， 从 
而 不 需要 使 用 srape) ， 获 取 前 5 本 下 载 最 多 的 电子 书 就 简单 直接 了 : 


$ cd -/book/ch06 

$ curl -s 'http://www.gutenberg.org/browse/scores/top' | © 
> grep -E '^«li»' | e 
» head -n 5 | e 
> sed -E "s/.*ebooks\/([0-9]+).*/\\1/" > data/top-5 o 
这 条 命令 : 


O 下 载 HTML, 

e 提取 清单 项 。 

e 只 保留 前 5 项 。 

@ 将 电子 书 ID 保存 到 data/top-5。 


该 命令 的 输出 是 : 


$ cat data/top-5 
1342 


如 果 想 要 能 在 以 后 重 现 该 命令 ， 最 容易 做 到 的 就 是 如 第 4 章 所 讲 ， 将 命令 放 入 脚本 中 。 如 
果 再 次 运行 该 脚本 ， 也 会 再 次 下 载 这 个 HTML 文件 。 你 可 能 想 要 控制 某 些 步骤 是 否 要 运 
行 ， 这 有 三 个 常见 的 理由 。 首 先 ， 一 个 步骤 可 能 需要 很 长 时 间 。 其 次 ， 你 想 要 继续 处 理 相 
同 的 数据 。 最 后 ， 数 据 可 能 来 自 有 速率 限制 的 API。 一 个 很 好 的 办 法 是 用 一 个 步骤 将 数据 
保存 到 文件 ， 后 续 步 又 对 该 文件 进行 操作 ,这样 你 就 不 必 再 做 任何 元 余 计算 或 APT 调用 
了 。 现 在 ， 在 我 们 的 例子 中 第 一 个 理由 不 成 问题 ， 因 为 HTML 文件 的 下 载 速度 足够 快 。 不 
过 ， 在 某 些 情况 下 ， 数 据 可 能 来 自 其 他 数据 源 ， 或 者 数据 量 达到 千 兆 字 节 的 规模 。 


6.5 所 有 工作 流 都 从 单个 步骤 开始 


这 一 市 将 把 前 述 的 命令 转化 为 Drake 工作 流 。 一 个 工作 流 只 是 一 个 文本 文件 。 通 常 将 该 文 
件 命 名 为 Drakefile， 因 为 如 果 没 有 在 命令 行 中 指定 其 他 文件 ，Drake 就 会 使 用 该 文件 。 只 
有 一 个 步骤 的 工作 流 如 示例 6-1 所 示 。 


示例 6-1 只 有 一 个 步 又 的 工作 流 (Drakefile) 
data/top-5 <- [1] 
curl -s 'http://www.gutenberg.org/browse/scores/top' | 
grep -E '^«li»' | 
head -n 5 | 
sed -E "s/.*ebooks\/([0-9]+).*/\\1/" > data/top-5 e 


000 


让 我 们 把 该 文件 从 头 到 尾 看 一 过 。 第 一 行 包含 一 个 左 向 箭头 ， 这 一 行 是 我 们 的 步骤 定义 。 
箭头 的 左边 ， 即 top-5， 是 这 个 步骤 的 名 字 或 输出 。 该 步骤 的 任何 输入 都 将 出 现在 箭头 的 
右边 ， 但 是 由 于 这 一 步骤 没有 输入 ， 因 此 现在 是 空 的 。 输 入 和 输出 的 定义 使 得 Drake 能 够 
识别 步骤 间 的 依赖 关系 ， 从 而 能 够 算出 是 否 需要 或 者 何 时 执行 哪个 步骤 ， 才 能 实现 特定 的 
输出 。 该 输出 也 被 称 为 目标 (target) 。 你 可 以 看 到 ， 这 个 步骤 的 主体 实际 上 是 从 前 的 命令 ， 
只 是 加 上 了 缩 进 。 


O 箭头 〈<-) 表示 步骤 的 名 字 和 其 中 的 依赖 关系 。 后 面 会 对 此 做 更 多 介绍 。 

e 主体 内 容 是 缩 进 的 。 

e 只 选择 清单 项 。 

O 获取 前 5 项 。 

e 提取 ID， 将 其 保存 到 文件 top-5 中 。 注 意 ， 已 经 在 步骤 定义 中 指定 了 top-5， 其 中 的 5 
已 经 使 用 了 三 次 。 后 面 我 们 会 对 此 做 更 多 介绍 。 


这 个 工作 流 非 常 简单 。 与 将 命令 放 到 Bash 脚本 中 相 比 ， 工 作 流 没有 任何 优势 。 但 不 必 担 
心 ， 我 们 向 你 保证 会 有 激动 人 心 的 事情 发 生 。 现 在 ， 让 我 们 运行 Drake， 看 看 我 们 第 一 个 
工作 流 是 什么 样 : 


$ drake 

The following steps will be run, in order: 
1: data/top-5 «- [missing output] 

Confirm? [y/n] y 

Running 1 steps with concurrence of 1... 


- ©. Running (missing output): data/top-5 <- 
- 0: data/top-5 «- -» done in 0.35s 
Done (1 steps run). 


如 果 要 让 Drake 重新 开始 ， 在 不 同步 骤 之 间 删 除 文件 drake.log, Kapi H 
录 .drake 以 及 任何 输出 文件 即 可 。 
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如 果 不 指 定 工 作 流 文件 ，Drake 就 会 使 用 /Drakefile, Drake 首先 确定 需要 运行 哪些 步骤 。 
在 我 们 的 例子 中 ， 仅 有 的 一 个 步骤 会 运行 ， 因 为 它 缺 少 输出 。 这 意味 着 没有 名 为 data/top-5 
的 文件 。Drake 在 执行 这 些 步骤 之 前 会 发 出 请 求 确认 的 信息 。 按 下 回 车 键 ， 此 后 很 快 就 会 
看 到 Drake 运行 完毕 。Drake 没有 对 我 们 的 步骤 报错 。 现 在 通过 查看 输出 文件 data/top-5 来 
验证 是 否 有 了 前 5 本 电子 书 : 


$ cat data/top-5 
1342 


现在 我 们 已 经 有 了 输出 文件 。 再 次 运行 Drake: 


$ drake 

The following steps will be run, in order: 
1: data/top-5 «- [no-input step] 

Confirm? [y/n] n 

Aborted. 


可 以 看 到 ，Drake 想 要 再 次 执行 这 个 步骤 ! 但 是 ， 现 在 它 提 到 了 一 个 不 同 的 原因 ， 也 就 是 
没有 输入 步骤 〈([no-input-step])。 它 的 默认 行为 是 通过 查看 输入 的 时 间 惟 来 检查 输入 是 
否 被 改变 。 不 过 ， 由 于 我 们 没有 指定 任何 输入 ，Drake 并 不 知道 这 个 步骤 是 否 应 该 再 次 运 
行 。 我 们 可 以 关闭 这 个 检查 时 间 鸡 的 点 认 了 为 ， 如 示例 6-2 所 示 。 


示例 6-2 Drake 工作 流 的 时 间 检 查 (01.drake) 


data/top-5 <- [-timecheck] 
curl -s 'http://www.gutenberg.org/browse/scores/top' | 
grep -E '^«li»' | 
head -n 5 | 
sed -E "s/.*ebooks\/([0-9]+)\">([4<]+)<.*/\\1,\\2/" > data/top-5 


方 括号 表明 这 是 该 步骤 的 一 个 选项 。timecheck 前 面 的 减 号 (-) 意 为 我 们 希望 将 时 间 戳 检 
查 关 闭 。 现 在 ， 该 步骤 只 有 当 人 缺少 输出 时 才 会 运行 。 


让 我 们 使 用 不 同 的 文件 名 ， 以 保存 旧版 本 的 工作 流 。 可 以 用 -w 来 指定 另外 的 工作 流 名 
(而 不 是 Drakefile)。 现 在 再 次 运行 Drake: 


$ mv Drakefile 01.drake 
$ drake -w 01.drake 
Nothing to do. 


我 们 最 初 的 工作 流 已 经 SAEBHRITT BAS 了 时 间 ， 因 为 Drake 检测 到 该 步骤 不 用 再 次 运行 。 不 
过 ， 还 可 以 做 得 比 这 好 得 多 。 这 个 工作 流 有 三 个 缺点 ， 我 们 将 在 下 一 市 阐述 。 


s 4 
6.6 具体 情况 具体 对 待 
我 们 的 工作 流 只 包含 一 个 步骤 ， 这 意味 着 与 拥有 简单 的 Bash 脚本 类 似 ， 始 终 都 是 全 部 运 
行 。 因 此 我 们 要 做 的 第 一 件 事 就 是 将 单个 步骤 分 解 为 两 个 ， 其 中 第 一 个 步骤 下 载 HTML, 
第 二 个 步 又 处 理 该 HTML， 后 者 明显 依赖 于 前 者 。 我 们 可 以 在 工作 流 中 定义 这 种 依赖 关系 。 
你 可 能 已 经 注意 到 我 们 指定 了 三 次 数字 5S。 如 果 你 曾 想 要 获取 古 腾 堡 计划 的 前 10 本 电子 
书 ， 那 就 得 修改 工作 流 的 三 个 地 方 。 这 十 分 低 效 ， 需 要 得 到 解决 。 幸 好 Drake 支持 变量 。 


数据 与 脚本 放置 在 相同 的 地 方 ， 这 在 我 们 的 工作 流 中 可 能 不 是 那么 明显 。 最 好 将 数据 单独 
放置 ， 使 其 与 生成 该 数据 的 任何 代码 隔离 开 来 。 这 不 仅 可 以 使 项 目 更 干净 ， 还 可 以 方便 
我 们 删除 生成 的 数据 文件 ， 并 且 易 于 说 明 我 们 不 希望 数据 文件 包含 于 如 git (Torvalds & 
Hamano, 2014) 这 样 的 任何 版 本 控制 系统 中 。 让 我 们 看 一 下 示例 6-3 中 改进 的 工作 流 。 


示例 6-3 具有 依赖 关系 的 Drake 工作 流 (02.drake) 
NUM: -5 [1] 
BASE-data/ e 
top.html «- [-timecheck] 
curl -s 'http://www.gutenberg.org/browse/scores/top' > $OUTPUT © 


top-$[NUM] <- top.html o 
< SINPUT grep -E '^«li»' | 
head -n S[NUM] | 
sed -E "s/.*ebooks\/([0-9]+)\">([%<]+)<.*/\\1,\\2/" > $OUTPUT 


@ 可 以 在 Drake 中 指定 变量 ， 最 好 是 在 文件 的 开头 ， 按 照 变量 名 、 等 于 号 、 值 的 顺序 进行 
变量 指定 。 变 量 名 不 必 都 是 大 写 , 但 大 写 确实 会 让 变量 更 显眼 一 些 。 你 可 以 看 到 ， 对 变 
量 NUM 使 用 := 而 不 是 =。 这 意味 着 一 旦 变量 NUM 被 设置 ， 就 不 能 重 写 。 这 使 我 们 可 以 在 
运行 Drake 之 前 通过 命令 行 指定 NUM 的 值 。 

@ 变量 BASE 是 特殊 变量 。Drake 会 将 工作 流 中 指定 的 所 有 文件 都 看 作 位 于 这 个 基本 目录 中 。 

日 现在 我 们 有 两 个 步骤 。 第 一 个 步骤 跟 以 前 一 样 有 相同 的 输入 ， 但 现在 输出 是 另外 的 文 
件 ， 名 为 tpp.html。 输 出 还 是 定义 为 步骤 2 的 输入 。 这 就 是 Drake 知道 第 二 个 步骤 依赖 
于 第 一 个 步骤 的 原因 所 在 。 

O 我 们 还 使 用 了 另外 两 个 特殊 变量 : INPUT 和 OUTPUT。 这 两 个 特殊 变量 的 值 分 别 设置 为 对 
该 步骤 输入 和 输出 的 定义 值 。 这 样 我 们 就 不 必 对 特定 步骤 的 输入 和 输出 指定 两 次 。 而 
且 ， 它 使 我 们 易于 重用 未 来 工作 流 的 某 些 步骤 。 


现在 使 用 Drake 来 执行 新 的 工作 流 : 


$ drake -w 02.drake 
The following steps will be run, in order: 
1: data/top.html «- [missing output] 
2: data/top-5 «- data/top.html [projected timestamped] 
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Confirm? [y/n] y 
Running 2 steps with concurrence of 1... 


- 0. Running (missing output): data/top.html «- 
- 0: data/top.html «- -> done in 0.89s 


- 1. Running (missing output): data/top-5 «- data/top.html 
--- 1: data/top-5 «- data/top.html -> done in 0.02s 
Done (2 steps run). 
假设 我 们 现在 想 要 前 10 本 电子 书 ， 而 不 是 前 5 本 。 可 以 在 命令 行 中 设置 NUM 变量 ， 并 
行 Drake (示例 6-4). 


ipi 


示例 6-4 NUM-10 时 的 Drake 工作 流 (02.drake) 


$ NUM-10 drake -w 02.drake 
The following steps will be run, in order: 
1: data/top-10 «- data/top.html [missing output] 
Confirm? [y/n] y 
Running 1 steps with concurrence of 1... 


- 1. Running (missing output): data/top-10 «- data/top.html 
- 1: data/top-10 «- data/top.html -» done in 0.02s 
Done (1 steps run). 


正如 你 所 见 ，Drake 现在 只 需要 执行 第 二 个 步骤 ， 因 为 第 一 个 步骤 的 输出 已 经 得 到 了 满足 。 
另外 ， 下 载 HTML 文件 也 不 是 什么 大 不 了 的 事情 了 ， 但 你 能 想象 如 果 处 理 的 是 10 GB 的 
数据 会 有 什么 后 果 吗 ? 


6.7 重新 构建 具体 目标 


古 腾 堡 计划 的 前 100 本 电子 书 清单 每 天 都 有 变化 。 我 们 已 经 看 到 ， 如 果 再 次 运行 Drake 工 
作 流 ， 包 含 这 个 清单 的 HTML 不 会 再 次 被 下 载 。 幸 好 Drake 允许 我 们 重新 运行 特定 步骤 ， 
这 样 就 可 以 更 新 该 HTML 文件 : 


$ drake -w 02.drake '-top.html' 


相 比 使 用 输出 文件 名 来 指定 想 要 重新 执行 哪个 步 又， 还 有 一 个 更 方便 的 方法 。 可 以 给 步骤 
的 输入 和 输出 都 加 上 所 谓 的 标签 (tag)。 标 签 以 % 开 头 。 选 择 简短 并 且 具 有 描述 性 的 标签 
名 是 个 好 主意 ， 这 样 易于 在 命令 行 中 指定 标签 。 让 我 们 给 第 一 个 步骤 加 上 标签 %htmL， 给 
第 二 个 步骤 加 上 标签 %filter， 如 示例 6-5 所 示 。 


示例 6-5 ” 带 有 标签 的 Drake 工作 流 (03.drake) 


NUM:=5 
BASE-data/ 


top.html, %html «- [-timecheck] 
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curl -s 'http://www.gutenberg.org/browse/scores/top' » SOUTPUT 


top-S[NUM], %filter <- top.html 
< INPUT grep -E '^«li»' | 
head -n S[NUM] | 
sed -E "s/.*ebooks\/([0-9]+)\">([%<]+)<.*/\\1,\\2/" > $OUTPUT 


现在 可 以 通过 指定 %html 标签 来 重新 构建 第 一 个 步骤 : 


$ drake -w 03.drake '=%html' 


6.8 讨论 

ABS fBJ—^4 pode fors. URIBE E BUTS TRE i Be REUS F8] ERI D Sc fb 
这 是 一 个 极 具 交 互 性 和 反复 多 次 的 过 程 。 一 段 时 间 之 后 ， 你 很 容易 忘记 自己 执行 了 哪些 步 
又 才 得 到 所 需要 的 结果 。 因 此 每 过 一 会 儿 就 将 这 些 步骤 记录 下 来 很 重要 。 这 样 ， 如 果 过 段 
时 间 你 自己 或 你 的 某 个 搭档 接手 这 个 项 目 ， 可 以 通过 执行 相同 的 步骤 来 生成 相同 的 结果 。 


本 章 展示 了 只 将 所 有 命令 放 入 一 个 Bash 脚本 的 做 法 并 不 理想 。 我 们 提出 用 Drake 作为 命 
令 行 工 具 来 管理 数据 工作 流 。 通 过 使 用 一 个 运行 示例 ， 我 们 展示 了 怎样 定义 步 台 和 步骤 间 
的 依赖 关系 ， 还 讨论 了 怎样 使 用 变量 和 标签 。 


没有 比 饼 记 其 他 一 切 专心 鼓 捣 数据 更 有 意思 的 事 了 。 但 是 请 相信 我 ,保留 所 有 事情 的 记 
录 (借助 于 Drake 工作 流 ) 是 值得 的 。 它 不 但 会 让 你 的 生活 变 得 更 简单 ， 而 且 还 会 使 你 开 
始 以 步 又 的 形式 来 思考 数据 工作 流 。 正 如 使 用 自己 的 数据 科学 工具 箱 那 样 一 一 经 过 一 段 时 
间 的 不 断 扩充 ， 能 够 使 你 更 加 高 效 一 一 Drake 工作 流 也 有 助 于 让 你 的 方案 更 有 条 理 。 定 义 
的 步骤 越 多 ， 继 续 这 样 做 就 越 容 易 ， 因 为 经 常 可 以 重用 某 些 步骤 。 和 希望 你 能 够 习惯 使 用 
Drake， 它 将 使 你 的 生活 更 轻松 。 


本 章 只 涉及 了 Drake 的 一 点 皮毛 。Drake 的 一 些 更 高 级 的 特性 包括 : 


。 步骤 的 异步 执行 
。 XJ Python 4I R 内 联 代码 的 支持 
。 从 HDFS fü S3 上 传 和 下 载 数据 


6.9 ”延伸 阅读 


。 Factual. (2014). Drake. Retrieved from https://github.com/Factual/drake. 
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第 7 章 


数据 探索 


既然 已 经 得 到 了 数据 并 对 它 进 行 了 清洗 ， 我 们 就 可 以 继续 进行 OSEMN 模型 的 第 三 步 了 ， 
也 就 是 数据 探索 。 在 完成 前 面 那些 困难 工作 之 后 ，( 除 非 你 已 经 拥有 了 干净 的 数据 ! ) 是 
时 候 放 松 一 下 了 。 


数据 探索 是 让 你 熟悉 数据 的 一 个 步骤 。 当 你 想 要 从 数据 中 获取 价值 时 ， 熟 悉数 据 是 必 不 可 
少 的 。 例 如 ， 了 解数 据 有 哪些 特征 ， 意 味 着 你 知道 哪些 数据 值得 进一步 探索 ， 哪 些 数据 可 
以 用 于 解决 你 的 问题 。 

数据 探索 可 以 通过 三 个 方面 实现 。 第 一 个 方面 是 检查 数据 及 其 属性 。 例 如 ， 在 这 里 ， 我 们 
想 知 道 原始 数据 是 什么 样子 ， 数 据 集 里 有 多 少数 据 ， 以 及 数据 集 有 哪些 特征 。 
数据 探索 的 第 二 个 方面 是 计算 描述 性 统计 信息 。 这 一 点 对 于 了 解 更 多 关于 单个 特征 的 信息 
比较 有 用 处 。 其 优点 在 于 ， 它 的 输出 通常 很 简明 ， 而 且 是 文字 性 的 ， 因 而 可 以 在 命令 行 中 
打印 出 来 。 


第 三 个 方面 是 为 数据 生成 可 视 化 图 形 。 在 这 里 ， 我 们 深入 了 解 关 于 多 个 特征 如 何 交 互 的 信 
息 。 我 们 会 讨论 一 种 可 以 在 命令 行 中 打印 的 数据 可 视 化 生成 方式 。 然 而 ， 多 数 的 可 视 化 是 
在 图 形 用 户 界面 上 显示 的 。 数 据 可 视 化 相对 于 描述 性 统计 信息 的 一 个 优点 在 于 ， 数 据 可 视 
化 更 加 灵活 ， 可 以 传递 更 多 信息 。 


7.1 概述 


本 章 你 将 学 习 : 
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。 检查 数据 及 其 属性 
。 计算 描述 性 统计 信息 
。 在 命令 行 之 内 和 之 外 生成 数据 可 视 化 图 形 


7.2 ”检查 数据 及 其 属性 


在 本 节 中 ， 我 们 将 会 通过 实例 说 明 如 何 检查 一 个 数据 集 及 其 属性 。 由 于 后 续 的 可 视 化 和 建 
模 技 术 都 需要 以 表格 形式 存在 的 数据 ， 因 此 我 们 假设 数据 是 CSV 格式 的 。 如 果 必 要 的 话 ， 
你 可 以 使 用 第 5 章 介绍 的 技术 把 数据 转换 成 CSV 格式 。 


为 了 简单 起 见 ， 我 们 还 假设 数据 里 有 一 个 数据 头 。 在 7.2.1 市 中 ， 我 们 会 检查 数据 是 否 有 
数据 头 。 一 旦 数据 就 绕 ， 我 们 就 可 以 继续 回答 如 下 问题 : 


。 数据 集 里 有 多 少数 据 和 特征 
。 原始 数据 是 什么 样 的 ? 

。 数据 集 有 哪些 特征 ? 

。 其 中 一 些 特征 是 否 能 看 作 类 别 特征 或 者 因子 ? 


~ 


7.2.1 确定 有 无 数据 头 
你 可 以 通过 打印 数据 的 前 儿 行 ， 检 查 你 的 文件 中 是 否 含有 数据 头 : 


$ head file.csv | csvlook 


第 一 行 是 数据 头 还 是 第 一 个 数据 ， 由 你 决定 。 当 数据 集 里 不 包含 数据 头 或 者 其 数据 头 含有 
换行 符 的 时 候 ， 你 最 好 回 到 前 面 的 步骤 ， 通 过 数据 清洗 来 修正 (参考 第 5 章 了 解 如 何 清洗 
数据 )。 


7.2.2 ”检查 所 有 数据 
如 果 你 想 检 查 原始 数据 ， 那 么 最 好 不 要 使 用 cat 命令 行 工 具 ， 这 是 因为 cat 会 在 屏幕 上 一 
次 性 打印 出 所 有 数据 。 为 了 按照 你 自己 的 显示 速度 来 查看 原始 数据 ， 我 们 推荐 使 用 带 有 -S 
选项 的 less (Nudelman, 2013), 


$ less -S file.csv 


当 较 长 的 行 无 法 适应 终端 显示 时 ，-S LEAT ARE EMI ANA ek. PEAK, less 允许 你 
横向 滚动 ， 查 看 这 些 行 剩 下 的 内 容 。less 的 优点 在 于 ， 它 并 不 会 把 整个 文件 都 读 进 内 存 ， 
这 对 于 浏览 大 型 文件 是 有 好 处 的 。 一 旦 你 处 于 less 状态 中 ， 可 以 通过 按 下 空格 键 向 下 演 动 
一 整 屏 。 横 向 滚动 则 可 以 通过 按 下 向 左 和 向 右键 实现 。 按 g 和 6 可 以 分 别 跳 到 文件 的 开头 
和 末尾 。 按 q 可 以 退出 less。 在 操作 说 明 页 面 中 可 以 找到 更 多 的 按键 组 合 。 


T 
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如 有 果 你 想 要 让 数据 集 具 有 漂亮 的 格式 ， 可 以 把 csvlook 加 入 到 管道 里 : 


$ < file.csv csvlook | less -S 


sample), ， 或 者 需要 耐心 等 待 一 会 儿 。 


7.2.3 ”特征 名 称 和 数据 类 型 


为 了 深入 了 解数 据 集 ， 将 特征 名 称 打 印 出 来 并 研究 一 下 是 很 有 意义 的 。 毕 竞 ， 特 和 和 
能 暗含 特征 的 含义 。 你 可 以 使 用 如 下 sed 表达 式 来 做 这 件 事 : 


$ cd ~/book/ch07 

$ < data/iris.csv sed -e 's/,/\n/g;q' 
sepal length 

sepal width 

petal length 

petal width 

species 


注意 ， 这 个 基本 命令 假设 文件 是 以 辟 号 分 隔 的 。 提 醒 一 下 ， 


可 以 在 ~/.bashrc 文件 里 定义 一 个 函数 ， 叫 作 names; 
names () { sed -e 's/,/\n/g;q'; } 


你 可 以 这 样 来 使 用 : 


$ < data/investments2.csv names 
company_permalink 
company. name 

company category list 
company. market 
company, country code 
company state code 
company. region 
company. city 

investor permalink 
investor name 

investor category list 
investor market 
investor country code 
investor state code 
investor region 
investor city 
funding round permalink 
funding round type 
funding round code 
funded at 


不 巧 的 是 ，csvlook f; 2 TES I Sc EDS SU AL FF H 
当 你 查看 一 个 非常 庞大 的 文件 时 ， 可 能 只 愿意 获取 一 个 子 集 (例如 使 用 


有 来 确定 列 的 宽度 。 所 以 ， 


FE 名 称 可 


如 果 你 想 经 常 使 用 这 个 命令 ， 


数据 探索 
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funded month 
funded quarter 
funded year 
raised amount usd 


我 们 还 可 以 比 打印 每 列 名 称 更 进一步 。 除 了 这 些 列 的 名 称 ， 了 解 每 列 中 所 包含 数据 的 类 型 
也 是 非常 有 用 的 。 数 据 类 型 的 例子 有 字符 串 、 数 值 或 者 日 期 。 假 设 我 们 有 如 下 简单 数据 


集 : 


|----- +--------+------- +---------- +------------------ +------------ +---------- | 
| a | b | c | d | e | f | 9 | 
|----- +-------- +------- +---------- +------------------ +------------ +---------- | 
| 2 | 0.0 | False | "Yes!" | 2011-11-11 11:00 | 2012-09-08 | 12:34 | 
| 42 | 3.1415 | True | Oh, good | 2014-09-15 | 12/6/70 | 0:07 PM 

| 66 | | False | 2198 | | | | 
|----- +-------- +------- +---------- +------------------ +------------ +---------- | 


我 们 在 第 5 章 里 已 经 使 用 过 csvql 直接 对 CSV 数据 执行 SQL 请 求 。 倘 若 我 们 想 要 把 这 条 
数据 插入 到 实际 数据 库 中 ， 它 就 会 在 没有 任何 命令 行 参数 传递 进来 的 时 候 生 成 所 需要 的 
SQL 语句 。 我 们 还 可 以 用 它 的 输出 来 查看 有 哪些 列 类 型 : 


csvsql data/datatypes.csv 
CREATE TABLE datatypes ( 
INTEGER NOT NULL, 
b FLOAT, 

c BOOLEAN NOT NULL, 

d VARCHAR(8) NOT NULL, 
e DATETIME, 
f 
g 
C 


ow 


DATE, 
TIME, 
HECK (c IN (0, 1)) 
) ; 


表 7-1 给 出 了 各 种 SQL 数据 类 型 含义 的 概述 。 如 果 在 一 个 列 中 ， 数 据 类 型 后 面 有 NOT NULL 
字符 串 ， 那 么 该 列 就 不 会 包括 缺失 什 


o 


表 7-1 Python 与 SQL 数据 类 型 


类 型 Python SQL 

字符 串 unicode VARCHAR 
布尔 型 bool BOOLEAN 
整数 int INTEGER 
实数 float FLOAT 

日 期 datetime.date DATE 

时 间 datetime.time TIME 

日 期 和 时 间 datetime.datetime DATETIME 


7.2.4 唯一 标识 、 连 续 变量 和 因子 
知道 每 个 特征 的 数据 类 型 是 不 够 的 。 了 解 每 个 特征 所 代表 的 意义 也 是 必 不 可 少 的 。 虽 然 
所 领 域 知识 很 用处， 但 我 们 还 可 以 从 数据 本 身 获 得 一 些 灵 感 。 


字符 串 和 整数 都 可 以 用 来 表示 唯一 标识 或 代表 一 个 类 别 。 对 于 后 者 ， 它 可 以 用 于 给 可 视 化 
图 形 赋予 一 种 颜色 。 如 果 一 个 整数 表示 ZIP 代码 ， 那 么 计算 平均 值 就 是 没有 任何 意义 的 。 


要 确定 一 个 特征 能 否 被 当 作 一 个 唯一 标识 或 者 类 别 变量 (或 者 是 R 术语 里 面 的 “factor ), 
ATEREA ETRIE, 


$ cat data/iris.csv | csvcut -c species | body "sort | uniq | wc -L" 
species 
3 


或 者 你 可 以 使 用 csvstat (Groskopf, 2014) 来 获得 每 列 中 不 同 值 的 个 数 。csvstat 是 
Cvskit 中 的 一 部 分 。 


$ csvstat data/investments2.csv --unique 
1. company permalink: 27342 
2. company name: 27324 
3. company category list: 8759 
4. company market: 443 
5. company country code: 150 
6. company state code: 147 
7. company region: 1079 
8. company city: 3305 
9. investor permalink: 11176 
10. investor name: 11135 
11. investor category list: 468 
12. investor market: 134 
13. investor country code: 111 
14. investor state code: 80 
15. investor region: 549 
16. investor city: 1198 
17. funding round permalink: 41790 
18. funding round type: 13 
19. funding round code: 15 
20. funded at: 3595 
21. funded month: 295 
22. funded quarter: 121 
23. funded year: 34 
24. raised amount usd: 6143 


如 果 不 同 值 的 数量 比 数据 集中 的 行 数 还 少 ， 那 这 个 特征 可 能 确实 应 该 被 当 作 一 个 类 别 特 
(E (例如 funding_round_type)。 如 果 这 个 数量 等 于 行 数 ， 那 它 可 以 作为 唯一 标识 (例如 


company permalink), 
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7.3 计算 描述 性 统计 信息 


7.3.1 使 用 csvstat 


命令 行 工 具 csvstat 给 出 了 很 多 信息 。 对 于 每 个 特征 ， 它 显示 了 : 


e Python 术语 中 的 数据 类 型 (IÆ 7-1 中 的 Python 和 SQL 数据 类 型 比较 ) 。 

。 是 否 含有 缺失 值 (NuLL) 。 

不 同 值 的 个 数 。 

。 有 关 适 用 特征 的 各 种 描述 性 统计 信息 〈 也 就 是 最 大 值 、 最 小 值 、 和 、 均 值 、 标 准 偏差 以 
及 中 值 )。 


我 们 按照 如 下 方式 使 用 csvstat: 


$ csvstat data/datatypes.csv 
1.8 
«type 'int'» 
Nulls: False 
Values: 2, 66, 42 


«type 'float'> 
Nulls: True 
Values: 0.0, 3.1415 


«type 'bool'> 

Nulls: False 

Unique values: 2 

5 most frequent values: 
False: 2 
True: 1 


«type 'unicode'» 
Nulls: False 
Values: 2198, "Yes!", Oh, good 


«type 'datetime.datetime'> 
Nulls: True 
Values: 2011-11-11 11:00:00, 2014-09-15 00:00:00 


«type 'datetime.date'> 

Nulls: True 

Values: 2012-09-08, 1970-12-06 
«type 'datetime.time'> 

Nulls: True 

Values: 12:34:00, 12:07:00 


Row count: 3 


给 出 了 非常 元 长 的 结果 。 要 得 到 更 简明 的 输出 ， 就 要 指定 如 下 统计 信息 中 的 一 个 选项 : 


e —sun (Ail) 

e -mean (均值 ) 

e -median (中 值 ) 

e --stdev (标准 偏差 ) 

。 -nulls ( 列 中 是 否 包含 空 值 ) 
e --unique (不 同 值 ) 

--freq (频繁 值 ) 

-len (数值 的 最 大 长 度 ) 


例如 : 


$ csvstat data/datatypes.csv --null 
1. a: False 

True 

False 

False 

True 

True 

True 


NOn AWN 
OO mD anoo 


你 可 以 用 -c 选项 选取 特征 的 一 个 子 集 。 它 既 可 以 是 整数 ， 也 可 以 是 列 的 名 称 。 


$ csvstat data/investments2.csv -c 2,13,19,24 
2. company_name 
«type 'unicode'> 
Nulls: True 
Unique values: 27324 
5 most frequent values: 


Aviir: 13 

Galectin Therapeutics: 12 
Rostima: 12 
Facebook: 11 


Lending Club: 11 
Max length: 66 
13. investor country, code 
«type 'unicode'» 
Nulls: True 
Unique values: 111 
5 most frequent values: 


USA: 20806 
GBR: 2357 
DEU: 946 
CAN: 893 
FRA: 737 


Max length: 15 
19. funding round code 

«type 'unicode'» 

Nulls: True 
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Unique values: 15 
5 most frequent values: 


a: 7529 
b: 4776 
C: 2452 
d: 1042 
e: 384 


Max length: 10 
24. raised amount usd 
«type 'int'» 
Nulls: True 
Min: 0 
Max: 3200000000 
Sum: 359891203117 
Mean: 10370010.1748 
Median: 3250000 
Standard Deviation: 38513119.1802 
Unique values: 6143 
5 most frequent values: 


10000000: 1159 
1000000: 1074 
5000000: 1066 
2000000: 875 
3000000: 820 


Row count: 41799 
注意 ，csvstat 像 csvsql 一 样 使 用 启发 式 方法 来 确定 数据 类 型 ， 因 此 它 并 不 是 总 能 得 到 正 
确 的 结果 。 我 们 鼓励 你 一 直 都 做 人 工 检查 ， 就 如 前 面 讨 论 的 那样 。 此 外 ， 数 据 类 型 可 以 是 
字符 串 或 者 整数 ， 但 是 并 没有 说 明 应 当 将 它 当 作 哪 种 类 型 。 
作为 一 个 不 错 的 副产品 ，csvstat 会 在 最 后 输出 数据 点 的 个 数 。 换 行 符 和 数值 中 的 逗号 都 
会 被 正确 处 理 。 我 们 可 以 用 tail 来 查看 那些 相关 的 输出 行 : 


$ csvstat data/iris.csv | tail -n 1 
Row count: 150 


如 果 你 只 想 查 看 数据 点 的 实际 个 数 ， 则 可 以 使 用 如 下 sed 表达 式 来 获得 这 个 值 : 


$ csvstat data/iris.csv | sed -rne '$(s/^([^:]4): ([0-9]+)$/\2/;p}' 
150 


7.3.2 在 命令 行 中 通过 Rio 使 用 R 

在 本 节 中 ， 我 们 将 会 介绍 一 个 命令 行 工具 ， 叫 作 Rio。 它 是 统计 编程 环境 RR 中 的 一 款 小 巧 
精致 的 程序 包 。 在 说 明 Rio 是 什么 以 及 它 为 什么 会 出 现 之 前 ， 让 我 们 先 说 一 些 有 关 及 本 身 
的 内 容 。 

R 是 一 个 功能 非常 强大 的 统计 软件 包 ， 用 于 分 析 数据 和 生成 可 视 化 图 形 。 它 是 一 种 解释 型 
编程 语言 ， 拥 有 大 量 的 程序 包 ， 并 提供 了 类 似 于 命令 行 的 REPL， 让 你 试验 数据 。 不 幸 的 


^R 
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是 ，R SRST Ea IE 一 旦 你 开始 使 用 R， 就 处 于 一 个 独立 的 环境 中 。R 并 不 能 真正 
与 命令 行 很 好 地 协作 ， 这 是 因为 你 无 法 将 任何 数据 通过 管道 输入 到 R 中 ， 它 也 并 不 支持 你 
所 给 出 的 任何 单行 命令 。 


例如 ， 假 设 你 有 一 个 CSV 文件 ， 叫 作 data/tips.csv， 你 想 要 计算 小 费 的 比例 ， 并 保存 结果 。 
要 用 R 完成 这 件 事 ， 你 需要 先 启 动 R: 


$ R 


然后 运行 如 下 命令 : 


> tips <- read.csv('data/tips.csv', header = T, sep = ',', stringsasfactors = F) 
> tips.percent <- tips$tip / tips$bill * 100 

> cat(tips.percent, sep = '\n', file = 'data/percent.csv') 

> q("no" 


之 后 ， 你 可 以 在 命令 行 中 继续 使 用 保存 下 来 的 data/percent.csv 文件 。 注 意 ， 这 里 只 
命令 和 你 想 要 实现 的 功能 相关 。 其 他 命令 都 是 必要 的 模板 代码 。 敲 入 这 scab Re 
一 些 简单 的 功能 是 比较 麻烦 的 ， 而 且 这 样 打 断 了 你 的 工作 流 。 BEBE 你 只 想 每 次 对 数据 
做 一 两 件 事情 。 如 果 能 够 利用 R 的 强大 功能 ， 并 且 可 以 在 命令 行 中 使 用 它 ， 这 不 是 一 件 非 
常 棒 的 事情 吗 ? 


Rio 在 这 Rio 的 名 字 代表 的 是 “R input/output”， 这 是 由 于 它 能 让 你 把 R 当 作 一 
个 过 滤器 在 命令 行 中 使 用 。 你 只 需要 把 CSV 数据 通过 管道 输入 到 Rio 中 ， 并 给 出 你 想 在 数 
据 上 运行 的 R 命令 即 可 。 让 我 们 再 做 一 次 之 前 那个 任务 ， 但 这 次 使 用 Rio: 


$ < data/tips.csv Rio -e 'dfStip / dfSbill * 100' | head 
5.944673 
16.05416 
16.65873 
13.97804 
14.68076 
18.62396 
22.80502 
11.60714 
13.03191 
21.85386 


Rio 能 够 运行 通过 分 号 分 隔 的 多 个 R 命令 。 所 以 ， 如 果 你 想 要 在 输入 数据 中 增加 一 个 叫 作 
percent 的 列 ， 可 以 做 如 下 事情 : 


$ < data/tips.csv Rio -e 'df$percent <- df$tip / df$bill * 100; df' | head 
bill,tip,sex,smoker,day,time,size,percent 
16.99,1.01,Female,No,Sun,Dinner,2,5.94467333725721 
10.34,1.66,Male,No,Sun,Dinner,3,16.0541586073501 
21.01,3.5,Male,No,Sun,Dinner,3,16.6587339362208 
23.68,3.31,Male,No,Sun,Dinner,2,13.9780405405405 
24.59,3.61,Female,No,Sun,Dinner,4,14.6807645384303 
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25.29,4.71,Male,No,Sun,Dinner,4,18.6239620403321 
8.77,2,Male,No,Sun,Dinner ,2,22.8050171037628 

26.88,3.12,Male,No,Sun,Dinner ,4,11.6071428571429 
15.04,1.96,Male,No,Sun,Dinner ,2,13.031914893617 


使 用 这 些 单行 命令 是 可 行 的 ， 这 是 由 于 Rio 可 以 处 理 所 有 模板 代码 。 能 够 使 用 命令 行 ， 并 
且 在 单行 命令 中 具备 R 的 功能 ， 这 是 相当 有 吸引 力 的 ， 特 别 是 当 你 想 要 一 直 使 用 命令 行 工 
作 的 时 候 。Rio 假设 输入 数据 是 CSV 格式 的 ， 并 且 包 含 数据 头 。( 通 过 指定 -n 选项 ，Rio 
不 会 把 第 一 行当 作 数据 头 ， 然 后 生成 默认 的 列 名 称 。) 在 后 台 ，Rio 会 把 从 管道 输入 的 数据 
写 入 一 个 临时 的 CSV 文件 中 ， 并 生成 一 个 脚本 : 


。 引入 所 需 的 程序 包 

。 JE CSV 文件 读 到 data.frame 中 

。 如 果 需 要 的 话 ， 生 成 一 个 ggplot2 对 象 (更 多 内 容 见 下 一 节 ) 
。 运行 指定 的 命令 

。 将 最 后 一 个 命令 的 结果 打印 到 标准 输出 中 


现在 ， 如 果 你 想 用 R 对 数据 集 做 一 两 个 操作 ， 可 以 使 用 单行 命令 ， 并 一 直 使 用 命令 行 工 
作 。 你 对 R 所 了 解 的 所 有 知识 ， 现 在 都 可 以 在 命令 行 中 使 用 。 通 过 Rto， 你 甚至 可 以 生成 
复杂 的 可 视 化 图 形 ， 如 同 在 本 章 后 面 所 看 到 的 那样 。 


Rio 并 不 是 必须 被 当 作 过 滤器 使 用 ， 这 意味 着 输出 本 身 并 不 是 一 定 要 是 CSV 格式 的 。 你 可 
以 计算 各 种 描述 性 统计 信息 : 


$ < data/iris.csv Rio -e 'mean(df$sepal length)' 
5.843333 

$ « data/iris.csv Rio -e 'sd(df$sepal length)' 
0.8280661 

$ < data/iris.csv Rio -e 'sum(dfSsepal length)' 
876.5 


如 果 想 要 计算 5 种 汇总 统计 ， 我 们 可 以 : 
$ < data/iris.csv Rio -e 'summary(dfS$sepal length)' 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.300 5.100 5.800 5.843 6.400 7.900 


你 还 可 以 计算 偏 度 (分 布 的 对 称 性 ) FERE 〈 分 布 的 峰值 ) ， 但 需要 安装 moments 包 ， 


$ < data/iris.csv Rio -e 'skewness(dfSsepal length)' 
$ < data/iris.csv Rio -e 'kurtosis(df$petal width)' 


两 个 特征 之 间 的 相关 性 : 


$ < dat/iris.csv Rio -e 'cor(df$bill, df$tip)' 
0.6757341 
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$ « data/tips.csv csvcut -c bill,tip | Rio -f cor | csvlook 


| bill | tip | 
|- eess dee | 
| 1 | 0.675734109211365 | 
| 0.675734109211365 | 1 | 
proe ——— — |=""> 


注意 ， 我 们 可 以 通过 -f 选项 指定 用 于 data.frame 的 函数 df。 在 这 种 情况 下 ， 它 与 -e 
cor(df) 的 功能 相同 。 


你 甚至 可 以 用 Rio 生成 一 个 茎 状 图 形 (Tukey，1977) : 


$ < data/iris.csv Rio -e 'stem(df$sepal length)' 


The decimal point is 1 digit(s) to the left of the | 


42 | 0 

44 | 0000 

46 | 000000 

48 | 00000000000 

50 | 0000000000000000000 
52 | 00000 

54 | 0000000000000 
56 | 00000000000000 
58 | 0000000000 

60 | 000000000000 
62 | 0000000000000 
64 | 000000000000 
66 | 0000000000 

68 | 0000000 

70 | 00 

72 | 0000 

74 | 0 

76 | 00000 

78 | 0 


7.4 生成 可 视 化 图 形 


在 本 节 中 ， 我 们 将 会 讨论 如 何 用 命令 行 生 成 可 视 化 图 形 。 我 们 将 会 看 看 两 个 不 同 的 软件 
Æ: Gunplot 和 ggplot2。 首 先 ， 我 们 会 介绍 一 下 这 两 个 软件 包 ， 然 后 用 实例 说 明 如 何 用 它 
们 生成 不 同类 型 的 可 视 化 图 形 。 


7.4.1 介绍 Gunplot 和 feedgnuplot 


我 们 将 在 本 章 里 讨论 的 第 一 个 生成 可 视 化 图 形 的 软件 包 是 Gunplot， 它 创建 于 1986 年 左 
右 。 尽 管 相当 古老 ,但 它 的 可 视 化 能 力 相当 广泛 。 因 此 ， 在 一 市 中 尽 言 其 意 是 不 太 可 能 
的 。 目 前 已 经 有 不 少 优秀 资源 可 以 使 用 ， 其 中 包括 Gunplot in Action 这 本 书 ， 由 Janert 于 
2009 年 创作 。 
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要 说 明 它 的 灵活 性 (以 及 它 的 古老 符号 )， 见 示例 7-1， 这 是 从 Gunplot 网 站 (http:// 
gunplot.sourceforge.net/demo/histograms.6gnu) 复制 过 来 的 。 


示例 7-1 用 Gunplot 生成 一 个 直方 图 


# set terminal pngcairo transparent enhanced font "arial,10" fontscale 1.0 size 
# set output 'histograms.6.png' 

set border 3 front linetype -1 linewidth 1.000 

set boxwidth 0.75 absolute 

set style fill solid 1.00 border lt -1 

set grid nopolar 

set grid noxtics nomxtics ytics nomytics noztics nomztics V 

nox2tics nomx2tics noy2tics nomy2tics nocbtics nomcbtics 

set grid layerdefault X linetype 0 linewidth 1.000, linetype © linewidth 1.000 
set key outside right top vertical Left reverse noenhanced autotitles columnhead 
set style histogram columnstacked title offset character 0, 0, 0 

set datafile missing '-' 

set style data histograms 

set xtics border in scale 1,0.5 nomirror norotate offset character 0, 0, 0 auto 
set xtics norangelimit 

set xtics () 

set ytics border in scale 0,0 mirror norotate offset character 0, 0, © autojust 
set ztics border in scale 0,0 nomirror norotate offset character 0, 0, 0 autoju 
set cbtics border in scale 0,0 mirror norotate offset character 0, 0, 0 autojus 
set rtics axis in scale 0,0 nomirror norotate offset character 0, 0, © autojust 
set title "Immigration from Northern Europe\n(columstacked histogram)" 

set xlabel "Country of Origin" 

set ylabel "Immigration by decade" 

set yrange [ 0.00000 : * ] noreverse nowriteback 
i = 23 

plot 'immigration.dat' using 6 ti col, 


using 12 ti col, using 13 tic 


注意 ， 上 述 代 码 被 整理 成 80 个 字符 宽 。 这 段 脚 本 生成 的 图 形 见 图 7-1, 


Immigration from Northern Europe 
(columstacked histogram) 


Immigration by decade 


DenmarWNethenandsNorway Sweden 
Country of Origin 
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-1: 用 Gunplot 绘制 的 移民 量 图 


Gunplot 和 我 们 使 用 过 的 绝 大 多 数 命令 行 工具 都 不 一 样 。 原 因 有 两 个 。 首 先 ， 它 使 用 脚本 ， 
而 不 是 命令 行 参数 。 其 次 ， 它 的 输出 都 会 写 到 文件 里 ， 而 不 是 打印 到 标准 输出 中 。 


Gunplot 的 一 个 很 大 优势 在 于 ， 它 能 够 为 命令 行 生成 可 视 化 图 形 ， 这 也 是 为 什么 它 会 长 期 


存在 ， 以 及 我 们 把 它 陡 括 到 本 书 中 的 主要 原因 。 这 是 说 ， 它 能 把 输 


需要 GUI。 即 便 如 此 ， 我 们 仍 需要 创建 一 个 脚本 。 


和 打印 到 终端 上 ， 而 不 


幸运 的 是 ， 有 一 个 命令 行 工 具 叫 作 feedgunplot (Kogan，2014) ， 它 可 以 帮 有 我 们 为 Gunplot 
创建 脚本 。 通 过 命令 行 参数 ，feedgunplot 完全 可 配置 。 外 加 上 ， 它 能 从 标准 输入 中 读 取 
数据 。 介 绍 完 ggplot2 之 后 ， 我 们 会 用 feedgunplot 生成 一 些 可 视 化 图 形 。 


我 们 想 在 这 里 介绍 feedgunplot 的 一 个 优秀 特性 是 ， 它 能 让 你 为 流 式 数 据 绘图 。 下 


个 基于 随机 输入 数据 的 连续 更 新 的 绘图 片段 : 


$ while true; do echo SRANDOM; done | sample -d 10 | feedgnuplot --stream | 


> 


--terminal 'dumb 80,25' --lines --xlen 10 
30000 ++----- TI +------------- +------------- +------------ +----- ++ 
| * * + + + 
| : ** : Yee K : * 
25000 Ft... lese S WA Ey M EY QA. * odas E coh ee st +* 
| : ke * . *. * *| 
| * * * * *| 
| £ * E * si * 7 * : * | 
20000 4-........... ee eee pU M I C NES D DROP els B pne eds cde e+ 
| è ep : * o. * : * | 
| : * o: * : * * * | 
15000 Fisa cp S neos E vex ORDERS eerie i ENDS * t+ 
| ****olk * * * * * | 
** D * * LIII * * * | 
10000 ++....... RIS E Iber e i WS Coe ete eles tens cet 
| : TE * : * kk : * * : eos | 
| : * * : ** : KKK : eos | 
| : * * : : * : * * | 
5000 ++.......... Mg ADM RE Oita tog oleate Moar UR SP det Ax net oan RIVE n Ete Va Er SET 
| *o* 1 ke | 
| + ne + + + * | 
0 tt----- TI Renee I1 I1 TII *.---- Tt 
2350 2352 2354 2356 2358 


7.4.2 ”介绍 ggplot2 


有 一 个 用 于 生成 可 视 化 图 形 的 更 现代 的 软件 包 叫 作 ggplot2, "Ext R 图 形 语法 的 一 个 实现 
(Wickham, 2009), 


感谢 图 


是 在 命 


形 语 法 ， 通 过 使 用 恰当 的 默认 值 ，ggptLot2 命令 非常 短小 精 悍 。 在 Rio 里 使 用 它 ， 


令 行 中 生成 可 视 化 图 形 的 一 种 非常 便利 的 方式 。 


数据 探索 
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为 了 说 明 它 的 表达 能 力 ， 我 们 借助 Rio 重新 生成 了 之 前 用 Gnuplot 生成 过 的 直方 图 。 由 于 
Rio 需要 数据 集 以 和 逗号 分 隔 ， 而 ggplot2 需要 long 格式 的 数据 ， 因 此 我 们 首先 要 对 数据 做 
一 点 点 清洗 和 转换 : 


$ < data/immigration.dat sed -re '/*#/d;s/\t/,/g3s/,-,/,0,/9;s/region/'\ 

> 'Period/' | tee data/immigration.csv | head | cut -c1-80 
Period,Austria,Hungary,Belgium,Czechoslovakia,Denmark,France,Germany,Greece,Irel 
1891-1900,234081,181288,18167,0,50231,30770,505152,15979,388416,651893,26758,950 
1901-1910,668209,808511,41635,0,65285,73379,341498,167519,339065,2045877,48262,1 
1911-1920,453649,442693,33746,3426,41983,61897,143945,184201,146181,1109524,4371 
1921-1930,32868,30680,15846,102194,32430,49610,412202,51084,211234,455315,26948, 
1931-1940,3563,7861,4817,14393,2559,12623,144058,9119,10973,68028,7150,4740,3960 
1941-1950,24860,3469,12189,8347,5393,38809,226578,8973,19789,57661,14860,10100,1 
1951-1960,67106,36637,18575,918,10984,51121,477765,47608,43362,185491,52277,2293 
1961-1970,20621,5401,9192,3273,9201,45237,190796,85969,32966,214111,30606,15484, 


sed 表达 式 包 含 4 部 分 ， 通 过 分 号 分 隔 : 


(1) 删除 以 注释 (#) 开头 的 行 。 
(2) 将 tab 转换 为 逗号 。 

(3) 将 破 折 号 (缺失 值 ) 变 为 0。 
(4) 将 特征 名 Region 变 为 Period。 


我 们 月 


的 一 部 分 ) 把 数据 从 宽 格式 变 为 长 格式 : 


$ < data/immigration.csv csvcut -c Period,Denmark,Netherlands,Norway,\ 
> Sweden | Rio -re 'melt(df, id="Period", variable.name="Country", '\ 


> 'value.name-"Count")' | tee data/immigration-long.csv | head | csvlook 
ļl------------ I I | 
| Period | Country | Count | 
ļl------------ I Ie | 
| 1891-1900 | Denmark | 50231 | 
| 1901-1910 | Denmark | 65285 | 
| 1911-1920 | Denmark | 41983 | 
| 1921-1930 | Denmark | 32430 | 
| 1931-1940 | Denmark | 2559 | 
| 1941-1950 | Denmark | 5393 | 
| 1951-1960 | Denmark | 10984 | 
| 1961-1970 | Denmark | 9201 | 
| 1891-1900 | Netherlands | 26758 | 
|------------ I +-------- | 


现在 ， 我 们 再 一 次 使 用 Rio， 不 过 是 通过 一 个 用 于 构建 9gplot2 可 视 化 的 表达 式 : 


< data/immigration-long.csv Rio -ge 'g + geom bar(aes(country, count,'\ 

' fill=Period), stat="identity") + scale fill brewer(palette-"Seti1") '\ 
"+ labs(x2"Country of origin", y="Immigration by decade", title='\ 
'"Immigration from Northern Europe\n(columstacked histogram)")' | display 


V MV Vv ovy 
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H csvcut 只 选择 那些 需要 的 列 ， 然 后 使 用 Rio 和 melt 函数 (EAE R 程序 包 reshape2 


-9 选项 表示 Rio 应 该 读 取 ggplot2 包 。 它 的 输出 是 一 个 PNG 格式 的 图 片 (图 7-2)。 你 
可 以 通过 display 来 浏览 这 个 PNG 图 片 ， 其 中 display 是 ImageMagick (ImageMagick 
Studio LLC，2009) 的 一 部 分 ， 或 者 你 也 可 以 把 输出 定向 到 一 个 PNG 文件 里 。 如 果 你 在 
一 个 远程 终端 上 ， 可 能 看 不 到 任何 图 形 。 一 个 解决 方法 是 在 一 个 特定 的 目录 下 启动 一 个 


Web 服务 器 : 


$ python -m SimpleHTTPServer 8000 


Immigration from Northern Europe 
(columstacked histogram) 


El 
600000 - 
LERNEN 
400000 - 
0- Em 


1 1 1 1 
Denmark Netherlands Norway Sweden 
Country of origin 


Period 


I 1891-1900 


E 1901-1910 
[1911-1920 
oco» 
E 1981-1940 

1941-1950 
Bl 1951-1960 
E 1961-1970 


Immigration by decade 


& 7-2: 用 Rio 和 ggplot2 绘制 的 移民 量 图 


确定 你 可 以 访问 这 个 端口 (这 里 是 8000)。 如 果 你 把 PNG 图 片 保存 在 启动 Web 服务 器 


目录 下 ， 就 可 以 通过 浏览 器 在 http://localhost:8000/file.png 访问 到 这 个 图 片 。 


7.4.8 HAA 
用 Rio (图 7-3) : 


$ « data/tips.csv Rio -ge 'g+geom_histogram(aes(bill))' | display 


的 


数据 探索 | 
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20- 


count 


10- 


图 7-3: 直方 图 
用 feedgnuplot. 


$ < data/tips.csv csvcut -c bill | feedgnuplot --terminal 'dumb 80,25' V 
> --histogram 0 --with boxes --ymin 0 --binwidth 1.5 --unset grid --exit 


25 ++----+------ +----- TIE**.-..-.-- +------ +----- +------ +----- +------ +----++ 
+ + + FERF ow + + + + + + + 
| * KK | 
| kkk KOK * | 

20 ++ K^ Vino ++ 
| KKKK k Kk k * | 
| K kk KKK k k kkk | 
| KKK KK k k KK | 

15 ++ KKK KK k k k * ++ 
| KKK KK k k k * | 
| KKK KK k k KK | 
| KKK ok ck k k *k *k KKK | 

10 ++ KKK ck Ck k kkk kkk OK ++ 
| ORE OR ck ROE soc X | 
| kkk kk Ck Ck k k k k ck kkkkk KKK | 
| k k kk ck Ck ck RK ko kkk k kkk K | 

5 ++ KKK k kk Ck Ck KKK KK KKK KK KKK ++ 
| KK Ck RK KKK KK KK KK k k k kkk K | 
| k k Ck kk Ck Ck Ck KK KK Ck Ck Ck Ck kkk k kkkkkkkk KKK kkk 
+ kp A x * k kk 十 火炎 *ok eR ko * k RRL * 十 炎炎 类 * KRY 火炎 十 火光 * k kkk + 


0 H-k kykkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk kkkkk kkk kkk.. 44 


0 5 10 15 20 25 30 35 40 45 50 55 


7.4.4 ZEK 
用 Rio (图 7-4) : 


$ « data/tips.csv Rio -ge 'g+geom_bar(aes(factor(size)))' | display 


150- 


100 - 


count 


504 


mm 
0- 


1 1 1 1 1 


1 2 3 4 5 6 
factor(size) 


图 7-4: 条 形 图 


用 feedgnuplot: 


$ < data/tips.csv | csvcut -c size | header -d | feedgnuplot --terminal \ 


> 'dumb 80,25' --histogram 0 --with boxes --unset grid --exit 
160 ++-------- e aaea T TI +-------- ++ 
+ + * + * + * + + 十 
140 ++ * & ++ 
| ‘ * | 
| a : | 
120 ++ * * ++ 
| = * | 
100 ++ d m ++ 
| g * | 
| g i | 
80 ++ * * ++ 
* * 


数据 探索 | 101 


60 ++ * * ++ 
| * * | 
| T t | 

40 ++ * Weeks ck e e e e e e e e e e e e A x ++ 
| * * * * | 

20 ++ * * * bi ++ 
| * * * * | 
T 类 淡淡 火 火 火炎 类 类 大 类 + * + * + kkkkkkkkkkkkkkkkkkkkk + 

0 qco-GCAck kk ck ck ck ck ck ded ke dee e ee e dee e ede e dede e ede ede ee eee hee e ee eee e ee eee ee ee eek - - -十 十 
0 1 2 3 4 5 6 7 


7.4.5 密度 图 
FA Rio (I 7-5); 


$ « data/tips.csv Rio -ge 'g+geom_density(aes(tip / bill * 100, fill=sex), '\ 
> 'alpha-0.3) + xlab("percent")' | display 


0.100 - 

0.075 - 
= sex 
9 | M Female 
- wm des 


0.025 - 


0.000 - 


l 
20 40 60 
percent 


7-5; BEB 
Feedgnuplot 无 法 生成 密度 图 ， 所 以 最 好 只 生成 一 个 直方 图 。 


| 4^ 


第 7 章 


7.4.6 AR 
FA Rio (图 7-6) : 


$ < data/tips.csv Rio -ge 'g+geom_boxplot(aes(time, bill))' | display 


. 
50- 
e 
e 
. 
. 
. 
40 - 
8 
. 
30 4 
= 
20 - 
10- 
1 1 
Dinner Lunch 
time 


7-6: 箱 线 图 


不 巧 的 是 ， 无 法 用 feedgnuplot 绘制 箱 线 图 。 


7.4.7 Wak 
FA Rio (E 7-7) : 


$ « data/tips.csv Rio -ge 'g+geom_point(aes(bill, tip, color=time))' | display 


数据 探索 | 103 


10.0 - 


tip 


2.54 


. e 
e e 
: c a time 
* . * Dinner 
= ee os t.o es e o . * Lunch 
e. e. e. 
. 
e. A e 4 
e e o% P, e ee e 
e è ? e 
eo? gue e aso 4 r * . 
e, se eo? e . 
$ «m tino co o ^ oe? bd eo e 
* sete v e ° - © 
ee ew ** e , 
© p oum. o e^ e? e 
me e 
eschew? & C. : 
e be = 
e. e e 
1 1 1 1 1 
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bill 


7-7; ARS 


JH feedgnuplot: 


$ « data/tips.csv csvcut -c bill,tip | tr , ' ' 


| header -d | feedgnuplot V 


» --terminal 'dumb 80,25' --points --domain --unset grid --exit --style pt 14 


10 ++----+------ +----- +------ +----- +------ +----- +------ +----- +------ +A---++ 
+ + + + + + + + + + + + 
9 ++ A ++ 
| | 
8 ++ ++ 
| A | 
| | 
7 ++ A A ++ 
| A A | 
6 ++ A A A ++ 
| A A | 
5 ++ A AA AA AAA AA A A A ++ 
| A A A A | 
4 ++ A A AAAA AAA A AA A A ++ 
| A AAAAA AAA AA A A | 
| A AAAAAAA AAA A AA A AA | 
3 ++ A AAAAAAAAAAA A A AA AA A ++ 
| AAAAAAA AA AAA A A | 


104 | 


2 ++ 


AA AAAAAAAAA A A AAA AAA 


++ 
+ +  AAAAAAAA +A AA+ +A + + + + + + 
1 ++--A-+A-A---+--AA-+--A---+----- +------ +--A--+------ +----- TI TIR 
0 b 10 15 20 25 30 35 40 45 50 55 
JH Rio CE] 7-8) : 
$ < data/immigration-long.csv Rio -ge 'g*geom line(aes(x-Period, '\ 
> 'y=Count, group=Country, color=Country)) + theme(axis.text.x = '\ 
> 'element text(angle = -45, hjust = 0))' | display 
250000 - 
200000 - 
150000 - Country 
m — Denmark 
5 — Netherlands 
o — Norway 
100000 - — Sweden 
50000 - 
0- 
1 1 1 1 1 1 1 
名. 9 9 & ; KA ^e S 295. : KA 
o o D ww K E» 名 c 
Period 
7-8: 折线 图 
用 feedgnuplot. 
$ < data/immigration.csv csvcut -c Period,Denmark,Netherlands,Norway,Sweden | 
» header -d | tr , ' ' | feedgnuplot --terminal 'dumb 80,25' --lines V 
» --autolegend --domain --legend 0 "Denmark" --legend 1 "Netherlands" V 
» --legend 2 "Norway" --legend 3 "Sweden" --xlabel "Period" --unset grid --exit 
数据 探索 | 105 


250000 ++----- %%%------- +------- +-------- TI T +-------- +------ ++ 


+ %%%% + 96 + + + + + Denmark+****** + 

| 9696 % Netherlands ###### | 

| % Norway $$$$$$ | 

200000 ++ % Sweden %%%%%%++ 
| $ % | 

| $$ % | 

| $ $ % | 

150000 ++ $$ $ % Tt 
| $ $ % | 

| $ $ % | 

100000 ++$ $% a 
IS $ %%6%%%96%%%% | 

| $ | 

| HRRKERRERER SS5SSSSSSSS% | 

50000 +****  IHHHHHHHHES * $9606 HHHHHHH Tt 
| #HHH iE Eid $$% HHH THE | 

| ## Ying HESSSSSSSSSSSS# | 

十 * + + SHHBHHHBHHHEHIS Ss eee + 

0 ++------ +-------- 十 ------- 十 -------- 类 淡淡 火炎 火炎 火炎 火炎 类 类 -十 Ph d +------ ++ 

1890 1900 1910 1920 1930 1940 1950 1960 1970 
Period 
7.4.9 总 结 


含有 ggplot2 的 Rio 和 含有 Gunplot 的 feedgnuplot 都 有 其 优点。 用 Rio 生成 的 图 形 的 质量 
明显 高 很 多 。 而 ggplot2 提供 了 一 种 一 致 而 简明 的 语法 ， 对 命令 行 非常 友好 。 
是 ， 它 的 输出 无 法 在 命令 行 中 直接 看 到 。 而 这 也 就 是 feedgnuplot 派 上 用 场 的 地 方 。 每 个 
形 具 有 大 致 相同 的 命令 行 参数 。 因 此 ， 直 接生 成 一 小 段 Bash 脚本 就 可 以 更 加 容易 地 在 命 4 
行 的 分 辨 率 很 低 ， 我 们 并 不 要 求 很 大 的 灵活 性 。 


行 中 或 者 为 命令 行 生成 图 形 。 


7.5 延伸 阅读 


E: ^v 
E, 命令 


惟一 的 缺点 


4» P 


。 Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer. 


e Janert, P. K. (2009). Gnuplot in Action. Manning Publications. 


e Tukey, J. W. (1977). Exploratory Data Analysis. Pearson. 


在 前 面 的 章节 中 ， 我 们 已 经 讨论 过 一 次 性 处 理 整 个 任务 的 命令 和 管道 。 然 而 在 实践 中 ， 你 


可 能 会 发 现 ， 在 要 处 理 的 任务 中 需要 多 次 运行 同样 的 命令 或 管道 。 例 如 ， 你 可 能 需要 : 


。 清洗 成 百 上 千 的 网 页 

。 进行 很 多 次 API 调用 ， 并 对 它们 的 输出 进行 转换 
。 在 一 系列 参数 值 中 训练 分 类 器 

。 为 数据 集 里 的 两 两 特征 生成 散 点 图 


这 些 例子 中 存在 某 种 形式 的 重复 。 你 可 以 在 习惯 的 脚本 或 编程 语言 中 ， 用 for 循环 或 者 
while 循环 来 处 理 它们 。 在 命令 行 里 ， 你 倾向 于 做 的 第 一 件 事 是 按 向 上 键 〈 退 到 前 一 个 命 


令 上 )， 修 改 命令 (如 果 必 要 的 话 )， 并 按 下 回 车 键 (再 次 运行 命令 )。 这 样 做 两 三 次 还 好 ， 
但 是 设想 一 下 对 很 多 文件 都 这 样 做 的 情景 。 这 种 方法 立刻 变 得 笨重 而 低 效 。 不 过 好 消息 


是 ,我们 也 可 以 在 命令 行 里 写 for fH while 循环 。 


有 时， 一 个 接 一 个 CB) 重复 执行 快捷 命令 是 高 效 的 。 


当 你 有 多 个 核 (其 至 可 能 是 多 个 


机 器 ) 的 时 候 ， 如 果 能 利用 它们 就 太 好 了 ， 特 别 是 当 你 


看 对 的 是 一 个 数据 密集 型 任务 时 。 


当 你 使 用 多 个 核 或 多 个 机 器 的 时 候 ， 总 体 运行 时 间 可 能 会 显著 减少 。 本 章 ， 我 们 将 会 介绍 


一 个 功能 非常 强大 的 、 正 是 解决 这 个 问题 的 工具 ， 叫 作 GNU Parallel, GNU Parallel 能 让 
我 们 对 一 系列 参数 使 用 命令 或 管道 ， 如 数字 、 文 本 行 以 及 文件 。 而 且 ， 它 允许 我 们 并 行 执 


行 命令 。 
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8.1 概述 


作为 穿 播 的 一 章 ， 本 章 讨论 了 需要 多 次 执行 命令 行 和 管道 的 任务 的 几 种 加 速 方法 。 本 章 的 
主要 目标 是 用 实例 说 明 GNU Parallel 工具 的 灵活 性 和 强大 功能 。 由 于 这 个 工具 可 以 和 本 书 
里 讨论 过 的 其 他 任何 工具 组 合 在 一 起 ， 因 此 它 肯 定 会 改变 你 在 数据 科学 工作 中 使 用 命令 行 
的 方式 。 本 章 你 将 会 学 习 : 


。 在 一 系列 数字 、 文 本 行 和 文件 中 串 行 运 行 命令 行 
。 用 GNU Parallel 并 行 运 行 管道 
。 将 管道 分 发 到 多 个 机 器 上 


8.2 ” 串 行 处 理 


在 深入 讨论 并 行 处 理 之 前 ， 我 们 来 看 看 串 行 循环 。 我 们 值得 花 些 时 间 了 解 一 下 它 是 怎么 做 
的 ， 因 为 这 个 功能 一 直 都 存在 ， 它 的 语法 很 像 其 他 语言 里 的 循环 ， 它 会 让 你 真心 感激 GNU 
Parallel 工具 。 


cedi AR AE 我 们 提炼 出 了 需要 进行 遍历 的 三 类 数据 : 数字 、 文 本 行 和 文 
件 。 这 三 种 类 型 的 数据 将 会 分 别 在 下 面 三 个 小 节 中 讨论 。 


8.2.4 对 数字 进行 遍历 
设想 一 下 ， 我 们 需要 计算 0 到 100 中 每 个 偶数 的 平方 。 这 里 有 一 个 工具 叫 作 bc， 它 基本 上 
是 一 个 在 命令 行 中 将 公式 输入 到 管道 的 计算 器 。 计 算 4 的 平方 的 命令 如 下 所 示 : 


$ echo "4^2" | bc 
16 


对 于 一 次 性 的 计算 ， 这 种 方式 毫 无 问题 。 但 如 果 像 简介 中 所 提 及 的 那样 ， 我 们 就 需要 疯狂 
地 按 向 上 键 ， 改 变数 值 ， 然 后 按 回 车 键 51 次 ! 在 这 种 情况 下 ， 更 好 的 方法 是 让 Bash 通过 
for 循环 来 为 我 们 处 理 这 项 麻烦 的 工作 : 


$ for i in {0..100..2} © 
» do 
» echo "Si^2" | bc e 
» done | tail e 
6724 
7056 
7396 
7144 
8100 
8464 
8836 


9216 
9604 
10000 


同时 在 这 里 还 有 一 些 其 他 的 事情 : 


O Bash 有 一 个 特性 叫 作 括号 扩展 ， 它 会 将 {0..100..2} 变 成 一 列 由 空格 分 隔 的 数字 : 9 2 
4 … 98 100, 

@ 在 第 一 个 循环 里 将 变量 i 赋值 为 1， 第 二 个 循环 里 为 2， 以 此 类 推 。 在 这 个 变量 的 值 之 
前 添加 美元 符号 ($)， 就 可 以 在 命令 行 里 使 用 该 变量 的 值 。 在 执行 echo a Shell & 
把 Si 转换 成 它 的 值 。 注 意 在 do 和 done 之 间 可 以 有 多 个 命令 。 

O 我 们 将 for 循环 的 输出 通过 管道 输入 到 tail 中 ， 以 便 只 看 到 最 后 的 10 行 数值 。 


尽管 这 些 语法 和 你 习惯 的 编程 语言 相 比 看 起 来 有 些 奇 茎 ， 它 们 却 是 值得 记 住 的， 因为 它们 
在 Bash shell 中 总 会 出 现 。 我 们 马上 就 会 介绍 一 种 更 好 、 更 灵活 的 重复 执行 命令 的 方式 。 


8.2.2 ”对 行进 行 遍历 


第 二 类 用 于 遍历 的 数据 是 行 。 这 些 行 可 以 来 自 于 一 个 文件 或 者 来 自 于 标准 输入 。 这 是 一 个 
非常 通用 的 方法 ， 因 为 文本 行 可 以 包含 任何 东西 ， 包 括 数字 、 日 期 、 邮 箱 地 址 。 


想象 一 下 ， 我 们 想 要 给 客户 发 送 电子 邮件 。 让 我 们 用 Random User Generator API (http:// 
randomuser.me/) 生成 一 些 伪 用 户 : 


$ cd -/book/ch08 

$ curl -s "http://api.randomuser.me/?results-5" » data/users.json 
$ « data/users.json jq -r '.results[].user.email'» data/emails.txt 
$ cat data/emails.txt 

kaylee.anderson64(jexample.com 

arthur.baker92Qexample.com 

chloe.graham66@example.com 

wyatt.nelson80@example.com 

peter .coleman75@example.com 


我 们 用 一 个 while 循环 对 emails.txt 中 的 文本 行进 行 遍历 : 


$ while read line [1] 
» do 

> echo "Sending invitation to ${line}." 

» done « data/emails.txt 

sending invitation to kaylee.anderson64@example.com. 
sending invitation to arthur.baker92@example.com. 
sending invitation to chloe.graham66@example.com. 
sending invitation to wyatt.nelson80@example.com. 
sending invitation to peter.coleman75@example.com. 


o0 


@ 在 这 里 我 们 使 用 while 循环 ， 这 是 因为 Bash 事先 并 不 知道 输入 中 包含 多 少 行 。 
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e 
H 


= 


管 
这 样 做 仍然 是 个 好 习惯 。 
定 


在 这 种 情况 下 line 变量 周围 的 大 括号 是 不 必要 的 (因为 变量 名 中 不 能 包含 句点 )， 


© $ 


你 还 可 
之 后 按 


$ 


on 
yo 


向 也 可 以 放 在 while 之 前 。 


以 通过 指定 特殊 文件 标准 输入 /dev/stdin， 交 互 式 地 将 输入 传递 给 while 循环 。 做 完 
Ctrl+D b. 
while read i; do echo "You typed: $i."; done « ev/stdin 


e 
u typed: one. 


two 
you typed: two. 


th 


ree 


you typed: three. 


命令 将 


这 个 方法 有 一 个 缺点 ， 就 是 一 旦 你 按 了 回 车 键 ， 对 于 这 行 输入 ，do 和 done 之 间 的 
会 立即 执行 。 


8.2.8 ”对 文件 进行 遍历 


在 本 市 
名 扩展 


$ 
> 
> 


> 


中 ， 我 们 将 讨论 第 三 种 经 常 需要 进行 毅 历 的 数据 : 文件 。 我 们 使 用 globbing (路 径 
) 而 不 是 ls， 进行 特殊 字符 处 理 : 


for filename in *.csv 

do 

echo "Processing ${filename}." 
done 


Processing countries.csv. 


如 同 对 
一 个 列 


数字 中 的 括号 进行 扩展 一 样 ，*.csy 文件 在 进行 for 循环 处 理 之 前 ， 首 先 会 被 扩展 成 
表 。 一 种 更 好 的 寻找 文件 的 方法 是 使 用 find (Youngman, 2008), 'E: 


。 允许 详细 搜索 文件 的 属性 ， 如 大 小 、 访 问 时 间 以 及 权限 。 
。 处 理 破 折 号 。 


。 ”处理 


$ 


E 特 殊 字符 ， 如 空格 和 换行 符 。 


find data -name '*.csv' -exec echo "Processing {}" V; 


Processing data/countries.csv 
Processing data/movies.csv 
Processing data/top250.csv 


这 里 的 


$ 


例子 和 之 前 一 样 ， 但 现在 使 用 parallel; 


find data -name "*.csv" -printO | parallel -0 echo "Processing {}" 


Processing data/countries.csv 
Processing data/movies.csv 
Processing data/top250.csv 
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-printo 选项 允许 处 理 find 输出 的 程序 正确 解释 包含 有 换行 符 或 其 他 类 型 空白 字符 的 文 
件 名 。 如 果 你 完全 确定 这 些 文件 名 并 不 包含 特殊 字符 ， 如 空格 和 回 车 ， 那 么 你 可 以 省 略 
-printo 和 -0 选项 。 


如 果 待 处 理 的 列表 过 于 复杂 ， 你 可 以 把 结果 保存 到 一 个 临时 文件 中 ， 然 后 使 
用 这 个 方法 对 文件 中 的 行进 行 遍 历 。 


8.3 并行 处 理 
假设 我 们 有 一 个 运行 时 间 非 常 长 的 命令 ， 如 示例 8-1 所 示 。 


示例 8-1 ~/book/ch08/slow.sh 


#!/bin/bash 

echo "Starting job $1" 
duration=$((1+RANDOM%5 ) ) Oo 
sleep $duration 

echo "Job $1 took ${duration} seconds" 


© SRANDOM 是 一 个 内 置 的 Bash 国 数 ， 它 可 以 返回 一 个 0 到 32 767 之 间 的 伪 随 机 数 。 对 这 
个 数 除 以 5 取 余 ， 然 后 加 1， 就 可 以 确保 它 在 1 到 5 之 间 。 


这 个 过 程 并 不 会 占用 所 有 资源 。 磁 巧 我 们 需要 运行 这 个 命令 很 多 次 。 例 如 ， 我 们 需要 下 载 
一 个 很 长 的 文件 序列 。 


一 种 原始 的 并 行 方法 是 在 后 台 运 行 这 些 命令 : 


$ for i in {1..4}; do 
> (./slow.sh $i; echo Processed $i) & @ 
» done 

[1] 3334 

[2] 3335 

[3] 3336 

[4] 3338 

Starting job 2 
Starting job 1 
Starting job 3 
Starting job 4 

Job 4 took 1 seconds 
Processed 4 

Job 3 took 4 seconds 
Job 2 took 4 seconds 
Processed 3 

Processed 2 

Job 1 took 4 seconds 
Processed 1 


© 括号 会 创建 一 个 子 shel WEE. TP (8) 确保 它 在 后 台 运 行 。 


T shell 进程 的 问题 在 于 ， 它 们 会 被 立即 执行 。 疫 有 控制 最 大 进程 个 数 的 机 制 。 不 建议 你 这 
样 使 用 : 


$ while read i; do 

» (./slow.sh "Si"; ) & 

» done « data/movies.txt 

[1] 3404 

[2] 3405 

[3] 3406 

Starting job Star Wars 

Starting job Matrix 

Starting job Home Alone 

[4] 3407 

[5] 3410 

Starting job Back to the Future 
Starting job Indiana Jones 

Job Home Alone took 2 seconds 
Job Matrix took 2 seconds 

Job Star Wars took 2 seconds 

Job Back to the Future took 3 seconds 
Job Indiana Jones took 4 seconds 


并 不 是 任何 事情 都 可 以 并 行 化 : API 调用 会 限制 一 定 次 数 ， 或 者 一 些 命令 只 
能 有 一 个 实例 。 


引号 很 重要 。 如 果 我 们 不 把 St 引起 来 ， 那 么 每 个 电影 就 只 有 第 一 个 单词 会 
传 进 slow.sh 脚本 。 


始 方法 有 两 个 问题 。 第 一 个 问题 是 没 法 控制 并 发 进程 的 数量 。 第 二 个 问题 是 日 志 记 
K: 某 个 输出 应 该 是 哪个 输入 的 。 


8.3.1 GNU Parallel 介 绍 


GNU Parallel (Tange, 2014) 是 一 个 命令 行 工具 ， 它 让 我 们 可 以 并 行 处 理 命令 和 管道 。 
个 工具 的 美妙 之 处 在 于 ， 既 有 工具 仍然 可 以 按照 原来 的 方式 使 用 ， 并 不 需要 修改 。 e 
RA GNU Parallel 的 细节 之 前 ， 这 里 有 一 个 小 例子 ， 向 你 展示 一 下 将 上 述 for 循环 并 行 化 
是 多 么 容易 : 


$ seq 5 | parallel "echo {}42 | bc" 
1 


4 
9 

16 
25 


这 是 parallel 最 简单 的 形式 : 没有 任何 选项 。 正 如 你 所 看 到 的 那样 ， 它 基本 上 跟 for 循环 
一 样 (我 们 后 续 就 会 解释 到 底 发 生 了 什么 )。GNU Parallel 通过 110 多 个 选项 (0, ， 提 供 了 
很 多 附加 功能 。 别 担心 ， 到 本 章 的 的 末尾 ， 你 将 会 对 其 中 绝 大 多 数 重要 选项 有 一 个 扎实 的 
理解 。 


通过 运行 如 下 命令 安装 GNU Parallel: 


$ wget http://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2 
$ tar -xvjf parallel-latest.tar.bz2 » extracted-files 

$ cd $(head -n 1 extracted-files) 

$ ./configure && make && sudo make install 


你 可 能 已 经 注意 到 ， 我 们 一 直 都 在 写 GNU Parallel。 这 是 因为 有 两 个 工具 都 
以 parallel 命名 。 如 有 果 你 使 用 了 数据 科学 工具 箱 ， 那 么 你 已 经 安装 了 正确 的 
那个 。 否 则 ， 你 可 以 通过 运行 parallel --version, 仔细 检查 一 下 是 否 已 经 
安装 了 正确 的 工具 。 


你 可 以 验证 一 下 你 已 经 正确 安装 了 GNU Parallel: 


$ parallel --version | head -n 1 
GNU parallel 20140622 


要 删 掉 创建 的 文件 和 目录 ， 运 行 如 下 命令 : 
$ cd .. 


$ rm -r $(head -n 1 extracted-files) 
$ rm parallel-latest.tar.bz2 extracted-files 


如 果 你 像 我 们 一 样 经 常 使 用 paraLteL， 那 你 可 能 会 希望 创建 一 个 别名 ( 例 
a, p), alias p=parallel 加 入 到 你 的 —/.bashrc 里 即 可 。( 在 本 章 里 ， 为 
清楚 起 见 ， 我 们 只 使 用 parallel,) 


8.3.2 ”指定 输入 

GNU Parallel 中 最 重要 的 参数 就 是 那些 要 对 每 个 输入 都 执行 的 命令 。 但 问题 是 : 输入 项 应 
该 插入 到 命令 行 的 哪个 位 置 呢 ? 如 果 你 不 指定 任何 东西 ， 输 入 项 将 会 追加 到 命令 的 后 面 。 
虽然 这 通常 是 你 想 要 的 效果 ， 但 最 好 可 以 通过 一 个 或 多 个 占 位 符 ， 明 确 指定 输入 项 应 该 插 
入 到 命令 的 什么 地 方 。 


73 GNU Parallel 提供 输入 的 方式 有 很 多 。 我 们 倾向 于 用 管道 处 理 输入 〈 如 同 
在 本 章 里 做 的 那样 )， 因 为 这 种 方法 是 普遍 适用 的 ， 允 许 我 们 构建 一 个 从 左 
到 右 的 管道 。 在 parallel 的 操作 说 明 页 面 可 以 找到 提供 输入 的 其 他 方式 。 


— 


在 大 多 数 情况 下 ， 你 可 能 想 要 使 用 整个 输入 项 。 对 此 ， 你 只 需要 一 个 占 位 符 即 可 。 你 可 以 
用 两 个 大 括号 (0) 来 指定 占 位 符 : 


$ seq 5 | parallel echo {} 
当 输入 项 是 一 个 文件 时 ， 你 可 以 使 用 一 些 特殊 占 位 符 来 修改 文件 名 。 例 如 ， 通 过 {./}， 只 
有 主 文件 名 会 被 使 用 。 
如 果 输 入 行 里 含有 多 个 用 分 隔 符 分 隔 的 部 分 ， 那 你 可 以 在 占 位 符 里 加 入 数字 。 例 如 : 

$ < input.csv parallel -c, "mv (1) (2)" 


这 里 你 可 以 使 用 同样 的 占 位 符 修饰 符 ， 还 可 以 重用 相同 的 输入 项 。 如 果 parallel 的 输入 是 
一 个 含有 文件 头 的 CSV 文件 ， 那 么 你 可 以 把 列 名 当 作 占 位 符 : 


$ < input.csv parallel -c, --header : "invite {name} {email}" 


有 时 你 只 想 运行 相同 的 命令 ， 而 不 改变 输入 。 这 在 parallel 里 面 也 是 可 行 的 。 我 们 只 需要 
HAE -NO 选项 ， 其 输入 就 会 作为 你 要 执行 的 行 数 。 


$ seq 5 | parallel -NO "echo The command line rules" 
The command line rules 
The command line rules 
The command line rules 
The command line rules 
The command line rules 


如 果 你 想 知 道 GNU Parallel 命令 是 否 设 置 正 确 ， 可 以 加 上 --dryrun 选项 。 
GNU Parallel 会 打印 出 所 有 命令 ， 如 同 它们 已 经 被 执行 了 一 样 ， 却 非 真正 执 


行 这 些 命令 。 


8.3.3 控制 并 发 任务 的 个 数 

Parallel 默认 在 每 个 CPU 核 上 并 发 运行 一 个 任务 。 你 可 以 通过 --jobs 或 - 3 选项 控制 要 并 
发 运行 的 任务 个 数 。 简 单 指定 一 个 数字 ， 例 如 n， 意 味 着 个 任务 将 会 并 行 运行 。 如 果 你 
TE n 前 面 放 一 个 加 号 ， 那么 parallel 将 会 运行 men 个 任务 ， 其 中 m 是 CPU 核 的 个 数 。 如 
RRE n 之 前 放 一 个 减 号 ， 那么 parallel 将 会 运行 m 一 n 个 任务 。 你 还 可 以 对 -j 选项 指 
定 一 个 百分比 。 其 默认 值 是 100% 的 CPU 核 数 。 最 优 的 并 发 任务 数 取决 于 运行 的 实际 命令 : 


fe 


14 | $82 


$ seq 5 | parallel -j0 "echo Hi {}" 


Hi 1 
Hi 2 
Hi 3 
Hi 4 
Hi 5 


$ seq 5 | parallel -j200% "echo Hi {}" 


Hi 1 
Hi 2 
Hi 3 
Hi 4 
Hi 5 


如 果 你 设置 -j1， 那 么 命令 会 串 行 执行 。 尽 管 这 和 工具 名 称 并 不 相符 ， 它 仍然 有 其 用 处 。 
例如 ， 当 你 需要 访问 一 个 API 的 时 候 ， 它 的 每 次 调用 只 允许 有 一 个 连接 。 如 果 你 设置 -j0, 
HBA parallel 会 执行 尽 可 能 多 的 并 行 任务 。 这 与 循环 执行 子 shell 相似 ， 并 不 推荐 。 


8.3.4 


记录 日 志和 输 


要 存储 每 个 命令 的 输出 ， 你 可 能 


出 


会 尝试 做 以 下 事情 : 


$ seq 5 | parallel "echo V'Hi {}\" > data/hi-{}.txt" 


这 会 把 输出 保存 到 各 个 文件 里 。 或 者 ， 如 果 你 想 要 把 所 有 东西 都 保存 到 一 个 大 文件 里 ， 可 
以 按 这 样 来 做 : 


$ seq 5 | parallel "echo Hi {}" >> data/one-big-file.txt 


然而 ，GNU Parallel 提供 了 --results 选项 ， 它 会 把 每 个 任务 的 输出 存 和 一 个 单独 的 文件 


E, Rx 


F 名 取决 于 输入 值 : 


$ seq 5 | parallel --results data/outdir "echo Hi {}" 


Hi 1 
2 
Hi 3 
4 


Hi 5 


$ find data/outdir 
data/outdir 
data/outdir/1 
data/outdir/1/1 
data/outdir/1/1/stderr 
data/outdir/1/1/stdout 
data/outdir/1/3 
data/outdir/1/3/stderr 
data/outdir/1/3/stdout 
data/outdir/1/5 
data/outdir/1/5/stderr 
data/outdir/1/5/stdout 


data/outdir/1/2 
data/outdir/1/2/stderr 
data/outdir/1/2/stdout 
data/outdir/1/4 
data/outdir/1/4/stderr 
data/outdir/1/4/stdout 


当 你 并 行 执行 多 个 任务 时 ， 任 务 执行 的 顺序 可 能 跟 输 入 的 顺序 并 不 对 应 。 因 此 任务 的 输出 
也 是 混在 一 起 的 。 要 保持 同样 的 顺序 ， 指 定 --keep-order 或 -k 选项 即 可 。 


记录 哪个 输入 生成 了 哪个 输出 有 时 也 是 有 用 处 的 。GNU Parallel 允许 你 通过 - -tag 选项 为 
输出 打 标 签 : 

$ seq 5 | parallel --tag "echo Hi {}" 
1 Hi 1 

2 Hi 2 
3 Hi 3 
4 Hi4 
5 Hi 5 


8.3.5 创建 并 行 工具 

在 本 章 开头 使 用 过 的 bc 工具 ， 本 身 并 不 是 并 行 的 。 然 而 ， 我 们 可 以 用 parallel 使 之 并 行 
化 。 数 据 科学 工具 箱 里 包含 一 个 叫 作 pbc (Janssens, 2014) 的 工具 。 它 的 源码 在 示例 8-2 
中 。 


示例 8-2 并 行 化 bc (pbc) 


#!/usr/bin/env bash 
parallel -C, -k -j100% "echo '$1' | bc -1" 


这 个 工具 也 能 让 我 们 简化 本 章 开 头 所 使 用 的 代码: 


$ seq 100 | pbc '(1)^2' | tail 
8281 
8464 
8649 
8836 
9025 
9216 
9409 
9604 
9801 
10000 


这 个 工具 的 工作 原理 如 下 。 你 可 能 还 记得 seq 100 会 生成 1 到 100 的 整数 ， 每 行 一 个 数 。 


这 些 行 通过 管道 传 给 pbc， 它 会 相应 地 传递 给 paraLLeL。 传 到 (1) 里 的 参数 在 发 送 到 bc 之 
前 会 由 parallel 进行 处 理 。 这 意味 着 ，{1} 会 被 行 中 第 一 列 的 值 取 代 (只 有 一 个 列 )。 


8.4 分 布 式 处 理 


有 时 你 需要 比 你 本 地 机 器 所 有 核 都 更 为 强大 的 能 力 。 幸 好 ，GNU Parallel 还 可 以 利用 远程 
机 器 的 力量 ， 让 我 们 对 管道 进行 加 速 。 


GNU Parallel 的 优点 在 于 ， 它 并 不 需要 安装 在 远程 机 器 上 。 它 只 要 求 你 能 通过 SSH 连接 远 
程 机 器 ， 这 也 是 GNU Parallel 分 发 管道 的 途径 。( 远 程 安装 GNU Parallel 是 有 帮助 的 ， 因 
为 它 可 以 确定 每 台 远 程 机 器 上 有 多 少 核 可 以 利用 ， 后 续 有 更 多 介绍 。) 


首先 ， 我 们 会 获得 运行 中 的 AWS EC2 实例 列表 。 如 果 你 没有 任何 远程 机 器 ， 别 担心 ， 你 
可 以 用 --sshlogin : 替换 所 有 出 现 的 --slf instances 来 达到 ， 它 会 告诉 GNU Parallel 使 
用 哪些 远程 机 器 。 通 过 这 种 方式 ， 你 仍然 可 以 跟 上 本 节 里 的 示例 。 


一 旦 知道 接管 了 哪些 远程 机 器 ， 我 们 就 会 考虑 三 类 分 布 式 处 理 方式 : 


。 在 远程 机 器 上 运行 一 般 命令 。 
。 在 远程 机 器 间 直 接 分 发 本 地 数据 。 
。 将 文件 发 送 到 远程 机 器 上 进行 处 理 ， 然 后 获取 结果 。 


8.4.1 获得 运行 中 的 AWS EC2 实 例 列 表 

在 本 节 里 ， 我 们 创建 一 个 名 为 instances 的 文件 ， 其 中 每 行 都 包含 一 个 远程 机 器 的 域名 。 我 
们 将 在 本 节 使 用 亚马逊 Web 服务 。 如 果 你 使 用 不 同 的 云 计 算 服 务 ， 或 者 你 有 自己 的 服务 
器 ， 那 么 要 确保 你 已 经 自行 创建 了 一 个 instances 文件 。 


你 可 以 通过 aws 从 命令 行 中 获得 运行 中 的 AWS EC2 实例 列表 。 它 是 访问 AWS API 
(Amazon Web Services, 2014) 的 命令 行 接口 。 如 果 你 并 没有 使 用 数据 科学 工具 箱 ， 那 么 
按照 如 下 方式 用 pip (PyPA, 2014) 安装 awscli; 


$ pip install awscli 


通过 aws， 你 几乎 可 以 完成 在 线 上 AWS 管理 控制 台中 所 能 做 的 所 有 事情 。 我 们 只 是 用 这 个 
工具 从 AWS 里 获得 运行 中 的 EC2 实例 列表 ,但 它 还 可 以 做 更 多 的 事 。 我 们 假设 你 已 经 知 
道 如 何 启 动 实例 ， 通 过 线 上 AWS 管理 控制 台 ， 或 者 通过 aws 命令 行 工具 。 


命令 aws ec2 describe-instances 会 返回 很 多 关于 EC2 实例 的 信息 ， 并 以 ISON 格式 存储 
( 见 AWS 文档 ， http://docs.aws.amazon.com/cli/latest/reference/ec2/describe-instances.html ) o 


我 们 用 3a 将 相关 字段 提取 出 来 : 


$ aws ec2 describe-instances | jq '.Reservations[].Instances[] | '\ 
> '(public dns: .PublicDnsName, state: .State.Name}' 
{ 

"state": "running", 


"public dns": "ec2-54-88-122-140.compute-1.amazonaws.com" 
} 
{ 

"state": "stopped", 


"public_dns": null 
} 


EC2 实例 可 能 的 状态 有 等 待 中 、 运 行 中 、 正 在 关闭 、 已 结束 、 正 在 关 停 和 已 关 停 。 由 于 只 
能 把 管道 分 发 到 运行 中 的 实例 里 ， 所 以 我 们 将 未 运行 的 实例 过 滤 掉 : 


$ aws ec2 describe-instances | jq -r '.Reservations[].Instances[] | '\ 
» 'select(.State.Name--"running") | .PublicDnsName' » instances 

$ cat instances 

ec2-54-88-122-140.compute-1.amazonaws.com 
ec2-54-88-89-208.compute-1.amazonaws.com 


(如 果 我 们 漏 掉 了 代表 raw 的 -r， 那 么 域名 两 边 会 有 双 引 号 。) 我 们 将 输出 保存 到 instances 
中 ， 以 便 后 续 可 以 把 它 传递 给 parallel, 


前 面 提 到 过 ，parallel 使 用 SSH 连接 EC2 实例 。 将 下 面 这 些 加 入 到 ~/.ssh/config 中 ， 使 得 
SSH 知道 如 何 连接 EC2 实例 : 


Host *.amazonaws.com 
IdentityFile -/.ssh/MyKeyFile.pem 
User ubuntu 


你 的 用 户 名 可 能 跟 ubuntu 不 同 ， 这 取决 于 你 正在 使 用 的 版 本 。 


8.4.2 ”在 远程 机 器 上 运行 命令 
第 一 种 分 布 式 处 理 方式 是 在 远程 机 器 上 运行 一 般 命 令 。 让 我 们 通过 运行 命令 行 工 具 
hostname 得 到 域名 列表 ， 来 仔细 检查 一 下 parallel 是 否 工 作 : 


$ parallel --nonall --slf instances hostname 
ip-172-31-23-204 
ip-172-31-23-205 


这 里 --sLf 选项 的 全 称 是 --sshloginfile 选项 。- -nonalLL 选项 让 parallel 在 每 台 远 程 机 器 
的 instances 文件 上 执行 相同 的 命令 ， 而 不 使 用 任何 参数 。 记 住 ， 如 果 你 没有 任何 远程 机 器 
可 用 ， 可 以 将 --slf instances 替换 为 --sshlogin :， 使 得 命令 行 可 以 在 你 的 本 地 机 器 上 
运行 。 


$ parallel --nonall --sshlogin : hostname 
data-science-toolbox 


在 每 台 远 程 机 器 上 运行 一 次 相同 的 命令 只 需要 每 台 机 器 上 有 一 个 核 。 如 果 想 要 把 传人 的 一 
列 参数 分 发 给 parallel， 它 就 可 能 使 用 多 个 CPU 核 。 如 果 没 有 明确 指定 CPU 核 的 个 数 ， 


IBA parallel 将 会 尝试 确定 它 : 


$ seq 2 | parallel --slf instances echo 2>1 | fold 

bash: parallel: command not found 

parallel: Warning: Could not figure out number of cpus on ec2-54-88-122-140.comp 
ute-1.amazonaws.com (). Using 1. 

1 

2 


在 这 种 情况 下 ， 我 们 将 parallel 安装 在 两 台 远 程 机 器 中 的 一 台 上 。 我 们 会 得 到 一 个 警告 信 
息 ， 说 在 其 中 一 台 机 器 上 没有 发 现 parallel。 结 果 ，parallel 无 法 确定 核 的 个 数 ， 它 就 会 
默认 使 用 一 个 核 。 当 你 收 到 这 个 警告 信息 时 ， 可 以 做 以 下 四 件 事 之 一 。 


。 别 担 心 ， 并 且 乐 于 在 每 台 机 器 使 用 一 个 核 。 

。 通过 -j 选 项 指定 每 台 机 器 上 的 任务 个 数 。 

。 指定 每 台 机 器 上 所 使 用 的 核 数 ， 例 如 ， 把 2/ (如 果 你 想 要 两 个 核 ) 放 在 instances 文件 
中 每 个 域名 的 前 面 。 


用 包 管 理 器 安装 GNU Parallel (并 不 是 说 它 通常 不 是 最 新 版 本 )。 例 如 ， 在 Ubuntu E: 


$ parallel --nonall --slf instances "sudo apt-get install -y parallel" 


8.4.3 在 远程 机 器 间 分 发 本 地 数据 

第 二 种 分 布 式 处 理 方式 是 直接 在 远程 机 器 间 分 发 本 地 数据 。 假 设 你 有 一 个 非常 大 的 数据 
集 ， 想 要 用 多 个 远程 机 器 进行 处 理 。 简 单 起 见 ， 我 们 将 要 对 1 到 1000 中 的 所 有 整数 求 
和 。 首 先 ， 我 们 打印 出 远程 机 器 的 域名 和 用 wc 得 到 的 输入 长 度 ， 来 验证 一 下 输入 是 否 已 
经 分 发 : 


$ seq 1000 | parallel -N100 --pipe --slf hosts "(hostname; wc -1) | paste -sd:" 
ip-172-31-23-204:100 
ip-172-31-23-205:100 
ip-172-31-23-205:100 
ip-172-31-23-204:100 
ip-172-31-23-205:100 
ip-172-31-23-204:100 
ip-172-31-23-205:100 
ip-172-31-23-204:100 
ip-172-31-23-205:100 
ip-172-31-23-204:100 


我 们 可 以 验证 ，1000 个 数字 均匀 分 发 到 了 100 的 子 集 里 (由 -n100 指定 )。 现 在 ， 我 们 已 
经 做 好 准备 对 这 些 数 字 求 和 : 
$ seq 1000 | parallel -N100 --pipe --slf hosts "paste -sd+ | bc" | 


> paste -sd+ | bc 
500500 


这 里 ， 我 们 还 可 以 立即 对 从 远程 机 器 上 拿 回 的 10 个 和 相 加 。 让 我 们 仔细 检查 一 下 结果 是 
TIEM: 


$ seq 1000 | paste -sd+ | bc 
500500 


好 的 ， 确 实 有 效 。 如 采 你 有 一 个 更 大 的 命令 要 在 远程 机 器 上 执行 ， 你 还 可 以 把 它 放 在 一 个 独 
立 的 脚本 里 面 ， 并 用 parallel 上 传 。 在 这 里 ， 我 们 创建 一 个 简单 的 命令 行 工具 ， 叫 作 sum: 


T 


#!/usr/bin/env bash 
paste -sd+ | bc 


别 忘 记 赋予 它 可 执行 权限 ， 如 第 4 章 讨论 的 那样 。 下 面 这 个 命令 首先 会 上 传 文件 sum: 


$ seq 1000 | parallel -N100 --basefile sum --pipe --slf instances './sum' | 
> ./sum 
500500 


当然 ， 对 1000 个 数字 求 和 只 是 一 个 简单 例子 。 在 本 地 做 这 件 事 会 快 得 多 。 然 而 ， 我 们 希 
望 从 这 个 简单 例子 中 可 以 清晰 认识 到 ，GNU Parallel 拥有 强大 的 功能 。 


8.4.4 ”在 远程 机 器 上 处 理 文件 


第 三 种 分 布 式 处 理 方式 是 将 文件 发 送 到 远程 机 器 进行 处 理 ， 然 后 获取 结果 。 假 设 我 们 想 要 
统计 纽约 市 每 个 区 在 311 收 到 服务 请 求 的 频率 。 在 本 地 机 器 上 并 没有 数据 ， 所 以 我 们 先 用 
API M NYC Open Data (https://data.cityofnewyork.us/) 上 获取 下 来 : 


$ seq 0 100 900 | parallel "curl -sL 'http://data.cityofnewyork.us/resource' "V 
> "'/erm2-nwe9. json?\$limit=100\Soffset={}' | jq -c '.[]' | gzip > {#}.json.gz" 


TER, ja -c '.[]' 用 于 将 JSON 对 象 数组 扁平 化 ， 使 得 每 行 有 一 个 对 象 。 我 们 现在 有 了 
10 个 含有 压缩 的 ISON 数据 的 文件 。 让 我 们 看 看 每 行 JSON 长 什么 样 : 


$ zcat 1.json.gz | head -n 1 | fold 

("school region":"Unspecified","park facility name":"Unspecified","x coordinate 

state plane":"945974","agency name":"Department of Health and Mental Hygiene","u 
nique key":"147","facility type":"N/A","status":"Assigned","school address":"Uns 
pecified","created date":"2006-08-29T21:25:23","community board":"01 STATEN ISLA 
ND","incident zip":"10302","school name":"Unspecified","location":["latitude":"4 
0.62745427115626" ," Longitude" :" -74.13789056665027" , "needs recoding":false],"comp 
laint type":"Food Establishment","city":"STATEN ISLAND","park borough":"STATEN I 
SLAND", "school state":"Unspecified","longitude":"-74.13789056665027" ,"intersecti 
on street 1":"DECKER AVENUE","y coordinate state plane":"167905","due date":"200 
6-10-05T21:25:23", "latitude" :"40.62745427115626" ," school code":"Unspecified","sc 
hool city":"Unspecified","address type":"INTERSECTION","intersection street 2":" 
BARRETT AVENUE", "school number":"Unspecified","resolution action updated date":" 
2006-10-06T00:00:17","descriptor":"Handwashing","school zip":"Unspecified","loca 
tion type":"Restaurant/Bar/Deli/Bakery" , "agency" : "DOHMH" , "borough" : " STATEN ISLAN 
D","school phone number": "Unspecified"} 
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如 果 我 们 想 要 在 本 地 机 器 上 获得 每 个 区 的 服务 请 求 个 数 ， 要 运行 如 下 命令 : 


$ zcat *.json.gz | [1] 
> jq -r '.borough' | e 
> tr '[A-Z] ' '[a-z] ' | e 
> sort | unig -c | o 
> awk '(print $2","$1}' | 6 
> header -a borough,count | [6] 
> csvsort -rc count | csvlook @ 
| E | 
| borough | count | 
| eM | 
| unspecified | 467 | 
| manhattan | 274 | 
| brooklyn | 103 | 
| queens [3 | 
| bronx | 44 | 
| staten island | 35 | 
| e | 


由 于 这 是 一 个 非常 长 的 管道 ， 而 且 我 们 会 在 paratlel 中 再 次 使 用 它 ， 因 此 值得 仔细 看 一 


@ 用 zcat 扩展 所 有 的 压缩 文件 。 

e 对 每 个 请 求 ， 用 jq 抽取 出 区 名 。 

e 将 区 名 转 成 小 写字 母 ， 并 用 下 划 线 代替 空格 (因为 awk 会 默认 按照 空格 切 分 ) 。 
O H sort Fil unig 统计 每 个 区 的 出 现 次 数 。 

© 将 count 和 borough 字段 反 转 ， 并 用 awk E CTIE Sah. 

@ 用 header 添加 一 个 数据 头 。 

@ 用 csvsort (Groskopf, 2014) 对 count 排序 ， 并 用 cvslook 打印 出 一 个 表格 。 


想象 一 下 ， 当 我 们 的 机 器 很 慢 的 时 候 ， 我 们 无 法 在 本 地 运行 这 个 管道 。 我 们 可 以 用 GNU 
Parallel 在 远程 机 器 间 分 发 本 地 文件 ， 让 它们 做 处 理 ， 并 且 获 得 结果 : 


$ ls *.json.gz | [1] 
> parallel -v --basefile jq V e 
> --trc {.}.csv \ e 
» --slf instances V o 
> "zcat {} | ./ja -r '.borough' | tr '[A-Z] ' '[a-z] ' | sort | uniq -c |"\ 

> " awk '{print \$2\",\"\$1}' > {.}.csv" e 


zcat 10.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '(print $2","$1}' 


zcat 2.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 1.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 3.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 4.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '(print $2","$1}' 
zcat 5.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 6.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 7.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '{print $2","$1}' 
zcat 8.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '(print $2","$1}' 
zcat 9.json.gz | ./jq -r '.borough' | sort | uniq -c | awk '(print $2","$1}' 


这 个 长 命令 按 如 下 方式 划分 : 


© 用 ls 打印 文件 列表 ， 并 通过 管道 把 它 传 人 parallel, 

e 将 jq 二 进 制 文件 传输 到 每 台 远程 机 器 上 (幸运 的 是 ，jq 没有 任何 依赖 )。 最 后 这 个 文件 
会 从 远程 机 器 上 删 掉 ， 因 为 我 们 指定 了 - -trc 选项 〈 它 意味 着 --cleanup 选项 ) 。 

© --trc {.}.csv 选项 是 --transfer --return {.}.csv --cleanup 的 缩写 (用 输入 文件 名 


禁 换 禁 代 符 {.}， 而 没有 最 后 


的 扩展 )。 在 这 里 ， 这 将 意味 着 ISON 文件 被 传输 到 远程 机 


$& E, CSV 文件 返回 到 本 地 机 器 ， 每 个 任务 完成 之 后 所 有 文件 都 会 从 远程 机 器 上 删除 。 
O 指定 域名 列表 。 记 住 ， 如 果 你 想 要 在 本 地 做 这 件 事 ， 可 以 设置 - -sshtogin : 而 非 --self 


instances, 


O 注意 awk 表达 式 中 的 转 义 。3 


| 号 有 时 比较 微妙 。 在 这 里 ， 美 元 符号 和 双 引 号 都 进行 了 转 


义 。 如 果 引 号 过 于 混乱 ， 记 但 


中 做 的 那样 。 


FE， 你 可 以 把 管道 转换 为 独立 的 命令 行 工 具 ， 就 如 同 在 sum 


在 这 个 命令 运行 过 程 中 的 某 个 时 刻 ， 如 果 我 们 在 一 台 远 程 机 器 上 运行 1s， 将 会 看 到 
parallel 确实 传递 〈 并 清除 ) 了 二 进 制 文件 ja. ISON 文件 以 及 CSV 文件 : 


$ ssh $(head -n 1 instances) ls 


1.json.csv 
1.json.gz 
jq 


每 个 CSV 文件 看 起 来 都 像 这 样 : 


$ cat 1.json.csv 
bronx,3 
brooklyn,5 
manhattan,24 
queens,3 

staten island,2 
unspecified,63 


我 们 可 以 使 用 Rio 和 R 中 的 aggregate 函数 ， 将 每 个 CSV 文件 中 的 统计 值 相 加 : 


cat *.csv | header -a bo 


rough,count | 


$ 
> Rio -e 'aggregate(count ~ borough, df, sum)' | 
> csvsort -rc count | csvlook 


ļl---------------- +-------- 
| borough | count 
|------ +-------- 
| unspecified | 467 

| manhattan | 274 

| brooklyn | 103 

| queens | 77 

| bronx | 44 

| staten island | 35 
|----- +-------- 


或 者 ， 如 果 你 更 愿意 对 总 计 结果 使 用 SQL， 可 以 使 用 在 第 5 章 讨论 过 的 csvsql: 


$ cat *.csv | header -a borough,count | 
> csvsql --query 'SELECT borough, SUM(count) AS count FROM stdin '\ 
> 'GROUP BY borough ORDER BY count DESC' | csvlook 


| borough | count | 
| e | 
| unspecified | 467 | 
| manhattan | 274 | 
| brooklyn | 103 | 
| queens [77 | 
| bronx | 44 | 
| staten island | 35 | 
| eM | 


8.5 讨论 

TEA EEE ea VESEY + Meal es EL A E. 这 意味 着 我 们 经 常 需要 多 次 
运行 某 个 命令 ， 或 者 将 数据 密集 型 的 命令 分 发 到 多 个 CPU 核 或 多 台 机 器 上 。 本 章 已 经 展 
示 出 ， 命 令 并 行 化 是 很 容易 的 。GNU Parallel 是 一 个 非常 强大 和 灵活 的 工具 ， 可 以 对 一 般 


命令 行 工 具 加 速 ， 并 将 它们 分 发 到 多 个 核 和 远程 机 器 上 。 它 提供 了 很 多 功能 ， 在 本 章 里 我 
们 只 是 触及 了 皮毛 。 一 些 我 们 没 涉及 的 GNU Parallel 特性 包括 : 


。 保留 所 有 任务 的 日 志 。 
。 当 一 台 机 器 的 负载 在 一 定 国 值 以 下 时 只 启动 新 任务 。 
。 超时 和 暂停、 重启 和 重 试 任务 。 


一 旦 你 对 GNU Parallel 及 其 最 重要 的 选项 有 一 个 基本 了 解 ， 我 们 推荐 你 看 看 “延伸 阅读 ” 
中 列 出 的 教程 。 


8.6 延伸 阅读 


e Tange, O. (2011). GNU Parallel —The Command-Line Power Tool. ;Login: The USENIX 


Magazine, 36(1), 42-47. Retrieved from http://www.gnu.org/s/parallel. 

* Tange, O. (2014). GNU Parallel Tutorial. Retrieved from http://www.gnu.org/software/ 
parallel/parallel tutorial.html. 

* Amazon Web Services (2014). AWS Command Line Interface Documentation. Retrieved from 


http://aws.amazon.com/documentation/cli/. 
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数据 建 模 


在 本 章 中 ， 我 们 将 会 进行 OSEMN 模型 的 第 四 个 步骤 〈 最 后 一 个 需要 计算 机 的 步骤 ) : Be 
据 建 模 。 通 常 来 说 ， 数 据 建 模 是 对 数据 构建 一 个 抽象 的 或 高 层次 的 描述 。 就 像 生成 可 视 化 
时 一 样 ， 从 独立 的 数据 点 向 回 退 了 一 步 。 


一 方面 ， 可 视 化 是 以 形状 、 位 置 和 颜色 为 特征 的 ， 我 们 可 以 通过 视觉 解释 它们 。 而 另 一 方 
面 ， 模 型 内 部 以 一 扒 数 字 为 特征 ， 例 如 计算 机 能 用 它们 来 预测 新 数据 。( 我 们 仍然 会 对 模 
型 进行 可 视 化 ， 以 便 能 够 试图 理解 它们 ， 看 看 它们 是 怎样 工作 的 。) 

在 本 章 里 ， 我 们 会 考虑 四 类 常见 的 数据 建 模 算法 : 

- 降 维 

. RX 

。 回归 
。 分 类 


这 四 类 算法 源 于 机 器 学 习 领 域 。 因 此 ， 我 们 将 会 改变 一 些 词 汇 。 假 设 我 们 有 一 个 CSV x 
件 ， 又 叫 作 数据 集合 。 除 了 文件 头 ， 每 一 行 都 会 被 当 作 一 个 数据 点 。 为 简单 起 见 ， 我 们 假 
设 含有 数值 的 每 一 列 都 是 一 个 输入 特征 。 如 果 一 个 数据 还 含有 一 个 非 数 值 字段 ， 例 如 Iris 
数据 集 的 species 列 ， 那 它 又 叫 作 数据 点 的 标签 。 


前 两 类 算法 〈 降 维和 聚 类 ) 通常 是 非 监督 的 ， 这 意味 着 它们 只 会 基于 数据 集合 本 身 的 特征 
生成 模型 。 后 两 类 算法 (回归 和 分 类 ) 从 定义 上 说 是 监督 算法 ， 这 意味 着 它们 还 会 在 模型 
中 使 用 标签 。 
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这 并 不 是 机 器 学 习 的 介绍 。 这 意味 着 我 们 必须 跳 过 很 多 细节 。 我 们 强烈 建议 
你 在 数据 中 盲目 应 用 算法 之 前 先 熟 悉 一 下 它们 。 


9.1 概述 
本 章 你 将 会 学 到 如 何 : 


。 降低 数据 集 的 维 数 
过 三 种 聚 类 算法 发 现 数据 的 分 组 
了 预测 白酒 的 品质 

预测 API 把 酒 分 成 红酒 或 白酒 


E 


通过 
。 e 
ix 


9.2 更 多 的 酒 ， 来 吧 ! 


在 本 章 里 ， 我 们 将 使 用 一 个 酒 品 数据 集 一 一 具体 来 说 ， 是 红色 和 白色 的 葡萄 牙 Vinho Verde 
葡萄 酒 。 每 个 数据 点 都 代表 一 种 漂 ， 包 含 11 个 物理 化 学 性 质 : (0) 固定 酸度 ，(2) 挥发 酸 
TE, (3) 柠檬 酸 ，(4) 残余 糖分 ，(5) SUCI. (6) 游离 二 氧化 硫 ，(7) 总 二 氧化 硫 ，(8) 密 
度 ，(9) pH 值 ，(10) 硫酸 盐 ，(11) 酒精 。 这 里 还 有 一 个 品质 分 数 。 这 个 分 数 在 0 (非常 不 
4f) 到 10 (RE) 之 间 ， 它 是 由 酒 类 专家 给 出 的 至 少 三 次 评估 值 的 中 间 值 。 关 于 这 个 数据 
集 的 更 多 信息 ， 在 酒 品 数 据 集 网 页 (http://archive.ics.uci.edu/ml/datasets/Wine+Quality) 中 
可 以 找到 。 


这 里 有 两 个 数据 集 : 一 个 是 白酒 的 ， 一 个 是 红酒 的 。 第 一 步 是 用 curl 获取 这 两 个 数据 集 
(当然 也 使 用 了 paratlel， 因 为 我 们 没有 那么 多 时 间 等 待 ) : 


$ cd -/book/ch09/data 
$ parallel "curl -sL http://archive.ics.uci.edu/ml/machine-learning-databases"V 


> "/wine-quality/winequality-{}.csv > wine-{}.csv" ::: red white 
(3 个 冒号 是 另 一 种 向 parallel 传递 数据 的 方式 。) 让 我 们 用 head 来 查看 数据 ， 用 wc -1 来 
"enia 


$ head -n 5 wine-{red,white}.csv | fold 

==> wine-red.csv <== 

"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"f 
ree sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates"; "alcohol"; 
"quality" 


7.4,;0.7;0;1.9,0.076;11;34;0.9978;3.51;0.56;9.4;5 
7.8,0.88,0;2.6;0.098;25;67,0.99685;3.2,0.68;,9.85;5 
7.8,0.765,0.04;2.3,0.092;155,54;0.997;3.26;0.65;9.8;5 
11.2,0.28;0.56;1.9;0.075;17;60,;0.998;3.16;0.58;,9.8;6 


==> wine-white.csv <== 


"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"f 


ree sulfur dioxide";"total sulfur dioxide";"density";"ph"; "sulphates"; "alcohol"; 
"quality" 


7:0.27,0.36;20.7,0.045;45;170;1.001;3,0.45;8.8;6 
6.3,;0.3,0.34;1.6,0.049;14;132,;0.994;3.3,0.49;9.55;6 
8.1,;0.28,0.4;6.9,0.05;30;97,0.9951;3.265,0.44;10.1;6 
7.2,0.23,0.32;8.55,0.058;47;186;0.9956;3.19,;0.4;9.95;6 
$ wc -L wine-{red,white}.csv 


1600 wine-red.csv 
4899 wine-white.csv 
6499 total 


第 一 眼 望 去 这 个 数据 已 经 非常 干 交 了 。 我 们 仍然 要 把 它 清 洗 一 下 ， 使 它 更 符合 大 多 数 命令 
行 工具 的 要 求 。 具 体 说 来 ， 我 们 将 会 : 


把 文件 头 转 成 小 写 
将 分 号 转 成 逗号 
将 空格 转 成 下 划 线 
出 控 不 必要 的 引号 


这 些 事情 都 可 以 用 tr 处 理 。 我 们 这 次 用 一 个 for 循环 (由 于 历史 原因 ) 来 处 理 这 两 个 数 
据 集 : 


$ for T in red white; do 
> < wine-$t.csv tr '[A-Z]; ' '[a-z], ' | tr -d \" > wine-${T}-clean.csv 
» done 


我 们 把 两 个 数据 集合 并 到 一 起 。 我 们 会 使 用 scvstack 来 增加 一 个 叫 作 type 的 列 ， 对 第 一 
个 文件 中 的 行 赋值 red， 对 第 二 个 文件 中 的 行 赋值 white ; 


这 个 


新 列 type 被 加 在 了 表 的 前 面 。 由 于 本 章 里 要 使 用 的 一 些 命令 行 工具 会 假设 类 别 的 标签 
在 最 后 一 列 ， 我 们 用 csvcut 把 各 个 列 重新 排列 一 下 。 我 们 在 调用 csvstack 之 前 把 需要 的 


$ HEADER="$(head -n 1 wine-red-clean.csv),type" 
$ csvstack -g red,white -n type wine-{red,white}-clean.csv 
> csvcut -c SHEADER > wine-both-clean.csv 


文件 头 临 时 存储 在 一 个 变量 HEADER 中 ， 而 不 是 把 所 有 13 个 列 都 襄 进 去 。 


最 好 检查 一 下 数据 集中 是 否 存 在 缺失 值 : 


$ csvstat wine-both-clean.csv --nulls 
1. fixed acidity: False 

volatile acidity: False 

citric acid: False 

residual sugar: False 

chlorides: False 

free sulfur dioxide: False 

total sulfur dioxide: False 


NOU PWD 
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8. density: False 
9. ph: False 

10. sulphates: False 
11. alcohol: False 
12. quality: False 
13. type: False 


真 棒 ! 出 于 好 奇 ， 我 们 看 看 红酒 和 白酒 的 品质 分 布 是 什么 样 的 : 


$ < wine-both-clean.csv Rio -ge 'g+geom_density(aes(quality, '\ 
> 'fill-type), adjust-3, alpha=0.5)' | display 


从 图 9-1 的 密度 图 中 ， 我 们 可 以 看 到 白酒 的 品质 分 布 更 倾向 于 较 高 的 值 。 
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69-1: 用 密度 图 比较 红酒 和 白酒 的 品质 


这 是 否 意味 着 ， 白 酒 总 体 来 说 比 红 酒 更 好 ， 或 者 白酒 专家 比 红酒 专家 更 容易 给 出 高 分 值 ? 
数据 并 没有 告诉 我 们 这 些 。 或 者 ， 酒 精 含量 和 品质 可 能 会 有 一 定 的 关联 ? 我 们 再 用 Rio 和 
ggplot2 来 查 明 (参见 图 9-2) : 

$ < wine-both-clean.csv Rio -ge 'ggplot(df, aes(x=alcohol, y=quality, '\ 


> 'color-type)) + geom point(position-"jitter", alpha=0.2) + '\ 
> 'geom smooth(method-"lm")' | display 


8- a - 153 


. bs E n : Mit [mi 1M WE fi ih $ 


. "i TM "t pet 
nest "si on HHIHR nH; AF E d 


品 zi: 
R eT -~ Aay 
— 白酒 


FH 
Mit THE x | ~ 
iliis n. 


图 9-2: 酒精 含量 和 品质 之 间 的 关联 
找到 了 ! 啊 哈 ， 我 们 进行 一 些 建 模 ， 如 何 ? 


9.3 用 Tapkee 降 维 


降 维 的 目的 是 把 高 维 数据 映射 到 低 维 空间 。 这 里 的 挑战 是 ， 要 在 低 维 映射 中 让 相似 的 数据 
保持 相近 。 如 同 我 们 在 前 一 市 中 看 到 的 那样 ， 我 们 的 酒 品 数 据 集 包含 了 13 维特 征 。 我 们 
坚持 使 用 两 个 维度 ， 因 为 这 样 直观 可 视 。 


降 维 通常 被 视 为 探索 数据 步骤 中 的 一 部 分 。 它 在 对 特征 太 多 的 数据 进行 画图 时 很 有 用 处 。 
你 可 以 做 出 一 个 散 点 图 和 矩阵， 但 这 样 做 每 次 只 能 显示 出 两 个 特征 。 降 维 在 其 他 机 器 学 习 算 
法 的 预 处 理 步骤 中 也 是 有 用 处 的 。 


多 数 降 维 算法 都 是 无 监督 的 。 这 意味 着 它们 在 构建 低 维 映射 时 并 不 使 用 数据 标签 。 


本 章 我 们 将 会 介绍 两 种 技术 : PCA (Principal Components Analysis) ， 它 表示 主 成 分 分 析 
(Pearson, 1901) ; t-SNE (t-distributed Stochastic Neighbor Embedding), ， 它 表示 t 分 布 随机 
ABIT A (van der Maaten & Hinton, 2008), 
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9.3.1 介绍 Tapkee 

Tapkee 是 一 个 用 于 降 维 的 C++ 模版 库 (Lisitsyn, Widmer & Garcia，2013) 。 这 个 库 中 包 
括 很 多 降 维 算法 的 实现 ， 包 括 : 

。 局 部 线性 嵌入 

。 [somap 

。 多 维 标 度 

* PCA 

* t-SNE 

Tapkee 的 网 站 (http://tapkee.lisitsyn.me/) 上 有 更 多 关于 这 些 算法 的 信息 。 尽 管 Tapkee € 
要 是 一 个 包含 在 其 他 应 用 中 的 库 ， 它 也 提供 了 一 个 命令 行 工 具 。 我 们 将 用 它 在 酒 品 数据 集 
上 进行 降 维 。 


9.3.2 ”安装 Tapkee 
如 果 你 没有 运行 数据 科学 工具 箱 ， 就 需要 自行 下 载 和 编译 Tapkee。 首 先 要 确定 你 已 经 安装 
了 CMake。 在 Ubuntu 里 ， 你 简单 运行 : 


$ sudo apt-get install cmake 


对 于 其 他 操作 系统 ， 请 到 Tapkee 的 网 站 上 寻找 操作 指南 。 运 行 如 下 命令 来 下 载 并 编译 源码 : 


$ curl -sL https://github.com/lisitsyn/tapkee/archive/master.tar.gz > \ 
» tapkee-master.tar.gz 

$ tar -xzf tapkee-master.tar.gz 

$ cd tapkee-master 

$ mkdir build && cd build 

$ cmake .. 

$ make 


这 会 生成 一 个 叫 作 tapkee 的 二 进 制 可 执行 程序 。 


9.3.3 ”线性 和 非 线 性 映射 
首先 ， 我 们 通过 标准 化 把 特征 归 一 到 统一 的 尺度 下 ， 使 得 每 个 特征 具有 相同 的 重要 性 。 在 
应 用 机 器 学 习 算法 的 时 候 ， 它 通常 会 带 来 更 好 的 结果 。 


为 了 进行 尺度 归 一 ， 我 们 使 用 了 Rio 和 cols WALA: 


$ < wine-both.csv cols -C type Rio -f scale > wine-both-scaled.csv 


现在 我 们 应 用 降 维 技术 ， 并 用 Rio-scatter 将 这 个 映射 可 视 化 显示 出 来 (如 图 9-3 所 示 )。 


$ < wine-both-scaled.csv cols -C type,quality body tapkee --method pca | 
> header -r x,y,type,quality | Rio-scatter x y type | display 
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图 9-3: 用 PCA 进行 线性 降 维 


$ < wine-both-scaled.csv cols -C type,quality body tapkee --method t-sne | 
> header -r x,y,type,quality | Rio-scatter x y type | display 


图 9-4: FR CSNE 进行 非 线性 降 维 
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注意 ， 在 这 两 种 线性 方法 中 ， 并 没有 使 用 什么 经 典 的 命令 行 工具 (也 就 是 GNU 的 coreutils 
软件 包 )。 现 在 这 些 都 是 由 于 创建 了 你 自己 的 工具 而 带 来 的 效果 ! 


9.4 用 Weka 聚 类 


在 本 节 中 ， 我 们 会 把 酒 品 数据 聚 成 若干 组 。 跟 降 维 一 样 ， 聚 类 通常 也 是 非 监督 的 。 它 可 以 
用 于 理解 数据 的 构成 。 一 旦 数据 被 聚 类 ， 你 就 可 以 根据 数据 点 的 类 别 进行 染色 ， 把 结果 可 
视 化 显示 出 来 。 对 于 大 多 数 算法 来 说 ， 你 需要 预先 指定 想 要 数据 聚 出 几 个 类 ， 而 一 些 算法 
能 够 自动 确定 适合 的 分 组 数目 。 


对 这 个 任务 来 说 ， 我 们 将 使 用 Weka。 它 是 由 怀 卡 托 大 学 的 机 器 学 习 组 (Hall et al., 2009) 
维护 的 。 如 果 你 已 经 了 解 Weka， 那 可 能 知道 它 是 一 个 带 有 用 户 图 形 界面 的 软件 。 然 而 ， 
你 将 会 看 到 ，Weka 也 可 以 在 命令 行 中 使 用 (虽然 需要 一 些 修改 )。 除 了 聚 类 ，Weka 还 可 
以 进行 分 类 和 回归 ， 不 过 我 们 将 使 用 其 他 工具 来 完成 这 些 机 器 学 习 任 务 。 


9.4.1 介绍 Weka 

你 可 能 会 问 : 对 聚 类 来 说 ， 一 定 有 更 好 的 命令 行 工具 ， 不 是 吗 ? 你 是 对 的 。 我 们 要 在 本 章 
里 引入 Weka 的 一 个 原因 ， 就 是 想 告诉 你 如 何 通过 构建 额外 的 命令 行 工具 来 克服 缺陷 。 随 
着 你 在 命令 行 中 投入 更 多 时 间 并 堂 试 更 多 其 他 的 命令 行 工 具 ， 有 可 能 发 生 的 情况 是 ， 一 开 
始 你 碰见 了 一 个 非常 有 前 景 的 工具 ， 但 后 来 发 现 跟 你 的 预期 不 符 。 例 如 ， 一 种 常见 的 缺陷 
是 ， 命 令 行 工 具 设 有 正确 处 理 标准 输入 或 标准 输出 。 在 下 一 节 里 ， 我 们 会 指出 Weka 的 缺 
各， 并 用 示例 说 明 如 何 克 服 它们 。 


= 


9.4.2 ”在 命令 行 里 改进 Weka 

Weka 可 以 在 命令 行 中 使 用 ， 但 是 肯定 不 会 很 直接 或 者 对 用 户 友 好 。Weka 是 用 Java 编写 
的 ， 这 意味 着 你 需要 运行 java， 指 定 weka.jar 文件 的 位 置 ， 以 及 指定 你 要 调用 的 每 个 类 。 
例如 ，Weka 有 一 个 类 叫 作 MexicanHat， 它 会 生成 一 个 简单 的 数据 集 。 要 用 这 个 类 生成 10 
个 数据 点 ， 你 可 以 运行 : 


$ java -cp -/bin/weka.jar weka.datagenerators.classifiers.regression.MexicanHatY 
> -n 10 | fold 

% 

% Commandline 

% 

% weka.datagenerators.classifiers.regression.MexicanHat -r weka.datagenerators.c 
lassifiers.regression.MexicanHat-S 1 -n 10 -A 1.0 -R -10..10 -N 0.0 -V 1.0 -S 1 

-n 10 -A 1.0 -R -10..10 -N 0.0 -V 1.0 

% 

@relation weka.datagenerators.classifiers.regression.MexicanHat-S 1 -n 10 -A 1.0 
-R. -10..10 -N 0.0 -V 1.0 
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(attribute x numeric 
@attribute y numeric 


@data 


4.617564, -0.215591 
-1.798384,0.541716 
-5.845703, -0.072474 
-3.345659,-0.060572 
9.355118,0.00744 
-9.877656,-0.044298 
9.274096,0.016186 
8.797308,0.066736 
8.943898,0.051718 
8.741643,0.072209 


别 担心 这 个 命令 的 和 输出， 我们 一 会 儿 就 会 讨论 它 。 此 刻 ， 我 们 关注 的 是 Weka 的 使 用 。 这 
里 有 3 点 需要 注意 : 


。 我 们 需要 运行 java， 这 是 违反 直觉 的 。 

。 JAR 文件 含有 2000 多 个 类 ,但 其 中 大 约 只 有 300 个 可 以 直接 在 命令 行 中 使 用 。 我 们 怎 
么 知道 有 哪些 呢 ? 

。 我 们 需要 指定 类 的 整个 命名 空间 : weka.datagenerators.classifiers.regression. 
MexicanHat。 我 们 应 该 怎样 记 住 它 ? 


这 是 否 意 味 着 我 们 将 放弃 使 用 Weka E? 当然 不 是 ! Weka 包含 很 多 有 用 的 功能 ， 我 们 下 
面 来 解决 这 3 个 问题 。 


1. 一 个 为 Weka 而 改进 的 命令 行 工具 
要 解决 第 一 个 问题 ， 将 下 列 代码 段 保存 到 一 个 叫 作 weka 的 新 文件 里 ， 让 它 可 执行 ， 并 且 
把 它 移 到 PATH 下 的 一 个 目录 里 : 


#!/usr/bin/env bash 
java -Xmx1024M -cp ${WEKAPATH}/weka.jar "weka.$@" 


接着 ， 将 下 面 这 行 添 加 到 你 的 ~/.bashrc 文件 里 ， 使 weka 可 以 在 任何 地 方 调用 : 


$ export WEKAPATH=/home/vagrant/repos/weka 


我 们 可 以 调用 前 面 这 个 例子 : 
$ weka datagenerators.classifiers.regression.MexicanHat -n 10 
现在 这 已 经 是 一 个 改进 了 | 


2. 可 用 的 Weka 类 
如 前 面 所 提 到 的 ， 文件 weka.jar 含有 2000 多 个 类 。 它 们 当中 很 多 都 无 法 直接 在 命令 行 中 
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使 用 。 当 我 们 用 -h 选项 调用 一 个 类 的 时 候 ， 它 可 以 给 我 们 一 个 帮助 信息 ， 我 们 就 认为 这 
个 类 在 命令 行 中 是 可 用 的 。 例 如 : 


$ weka datagenerators.classifiers.regression.MexicanHat -h 
Data Generator options: 


-h 
Prints this help. 
-o <file> 
The name of the output file, otherwise the generated data is 
printed to stdout. 
-r <name> 
The name of the relation. 


Whether to print debug informations. 


The seed for random function (default 1) 
-n «num» 

The number of examples to generate (default 100) 
-A «num» 

The amplitude multiplier (default 1.0). 
-R «num»..«num» 

The range x is randomly drawn from (default -10.0..10.0). 
-N «num» 

The noise rate (default 0.0). 
-V «num» 

The noise variance (default 1.0). 


现在 这 是 可 用 的 。 例 如 ， 下 面 这 个 类 就 是 不 可 用 的 : 


$ weka filters.SimpleFilter -h 

java.lang.ClassNotFoundException: -h 
at java.net.URLClassLoader$1.run(URLClassLoader. java:202) 
at java.security.AccessController.doPrivileged(Native Method) 
at java.net.URLClassLoader.findClass(URLClassLoader.java:190) 
at java. lang.ClassLoader.loadClass(ClassLoader. java:306) 
at sun.misc.Launcher$AppClassLoader . LoadClass(Launcher . java: 301) 
at java.lang.ClassLoader.loadClass(ClassLoader. java: 247) 
at java.lang.Class.forNameO(Native Method) 
at java.lang.Class.forName(Class.java:171) 
at weka.filters.Filter.main(Filter. java: 1344) 

-h 


下 面 这 个 管道 对 weka.jar 中 的 每 个 类 都 运行 了 带 有 -h 选项 的 weka， 并 把 标准 输出 和 标准 
错误 保存 在 一 个 和 类 名 同名 的 文件 里 。 


"mr 


$ unzip -l SWEKAPATH/weka. jar 

> sed -rne 's/.*(weka)\/([%g])([*$]*)\.class$/\2\3/p' | 
ste '/ "e| 

> parallel --timeout 1 -j4 -v "weka {} -h > {} 2»81" 


我 们 现在 有 了 749 个 文件 。 通 过 如 下 命令 ， 我 们 把 不 包含 字符 串 Exception 的 文件 名 都 保 


存 到 weka.classes 里 : 


$ grep -L 'Exception' * | tee SWEKAPATH/weka.classes 
减少 到 332 个 类 了 ! 这 里 有 几 个 类 你 可 能 会 感 兴趣 


e attributeSelection.PrincipalComponents 

e classifiers.bayes.NaiveBayes 

* classifiers.evaluation.ConfusionMatrix 

e classifiers.functions.SimplelinearRegression 
。 classifiers.meta.AdaBoostM1 

e classifiers.trees.RandomForest 

e clusterers.EM 


e filters.unsupervised.attribute.Normalize 
如 你 所 见 ，Weka 提供 了 一 系列 的 类 和 函数 。 


3. 添加 tab 补 全 


此 刻 ， 你 仍然 需要 自己 襄 入 整个 类 名 。 你 可 以 在 ~/.bashrc 文件 里 输出 WEKAPATH 之 后 ， 加 


入 如 下 代码 段 ， 添 加 一 个 叫 作 tab 补 全 的 功能 : 


_CompLeteweka() f 
local curw=${COMP_WORDS[COMP_CWORD]} 
local wordlist=$(cat SWEKAPATH/weka.classes) 
COMPREPLY=($(compgen -W 'S${wordlist[@]}' -- "Scurw")) 
return 0 


} 


complete -o nospace -F _completeweka weka 


这 个 函数 可 以 利用 我 们 之 前 生成 的 weka.classes 文件 。 如 果 你 现在 在 
clu， 并 按 3 次 «Tab» 键 ， 你 就 会 看 到 一 个 与 育 类 有 关 的 所 有 类 的 列表 : 


$ weka clusterers. 
clusterers.CheckClusterer 
clusterers.CLOPE 
clusterers.ClusterEvaluation 
clusterers.Cobweb 

clusterers.DBSCAN 

clusterers.EM 
clusterers.FarthestFirst 
clusterers.FilteredClusterer 
clusterers.forOPTICSAndDBScan.OPTICS GUI.OPTICS Visualizer 
clusterers.HierarchicalClusterer 
clusterers.MakeDensityBasedClusterer 
clusterers.OPTICS 

clusterers.sIB 


命令 行 中 键入 weka 


clusterers.SimpleKMeans 

clusterers.XMeans 
生成 一 个 命令 行 工具 weka， 确 定 可 用 的 类 ， 并 添加 tab 补 全 ， 这 让 Weka 在 命令 行 中 更 容 
易 使 用 一 点 儿 。 


9.4.3 在 CSV 和 ARFF 格 式 之 间 转 换 


Weka 使 用 ARFF 文件 格式 。 它 是 基本 CVS 格式 加 上 列 的 信息 。 我 们 会 使 用 两 种 好 用 的 命 
令 行 工 具 在 CSV 和 ARFF 之 间 转 换 ， 它 们 叫 作 csv2arff ( 见 示 例 9-1) 和 arff2csv ( 见 示 
例 9-2), 


示例 9-1 F CSV 转换 为 ARFF (csv2arff) 
#!/usr/bin/env bash 
weka core.converters.CSVLoader /dev/stdin 
示例 9-2 将 ARFF 转换 为 CSV (arff2csv) 


#!/usr/bin/env bash 
weka core.converters.CSVSaver -i /dev/stdin 


9.4.4 比较 三 种 聚 类 算法 

为 了 用 Weka 对 数据 聚 类 ， 我 们 需要 另外 一 个 定制 的 命令 行 工 具 来 帮 有 我 们 。 将 数据 分 配给 
已 有 的 化， 需要 用 到 AddCluster 类 。 不 幸 的 是 ， 这 个 类 无 法 接受 标准 输入 的 数据 ， 甚 至 当 
我 们 指定 -i /dev/stdin 的 时 候 也 不 行 ， 因 为 它 预期 的 是 一 个 以 .arff 为 扩展 名 的 文件 。 我 


们 觉得 这 是 一 个 很 烂 的 设计 。weka-cluster 的 源码 是 : 


#!/usr/bin/env bash 
ALGO="$@" 
IN=$(mktemp --tmpdir weka-cluster-XXXXXXXX) .arff 


finish () { 
rm -f SIN 


trap finish EXIT 
csv2arff » SIN 


weka filters.unsupervised.attribute.AddCluster -W "weka.S{ALGO}" -i SIN V 
-o /dev/stdout | arff2csv 


现在 我 们 应 用 EM 聚 类 算法 ， 并 把 徐 的 分 配 按 如 下 方式 保存 : 


$ cd data 

$ « wine-both-scaled.csv csvcut -c quality,type | o 
> weka-cluster clusterers.EM -N 5 | 

» csvcut -c cluster » data/wine-both-cluster-em.csv e 


@ 用 统一 标 度 的 数据 集 ， 不 要 在 聚 类 中 使 用 特征 quality 和 type, 
@ 通过 weka-cluster 使 用 算法 。 
e Atk BIRD Ac. 


我 们 对 SimpleKMeans 和 Cobweb 聚 类 算法 也 运行 了 同样 的 命令 。 我 们 现在 有 了 3 7 RA BO 
信息 的 文件 。 让 我 们 创建 一 个 t-SNE 映射 ， 将 徐 分 配 信息 可 视 化 出 来 : 


$ < wine-both-scaled.csv csvcut -c quality,type | body tapkee --method t-sne | 
» header -r x,y » wine-both-xy.csv 


下 一 步 ， 通 过 paste 将 徐 的 分 配 和 t-SNE 映射 合并 在 一 起 ， 并 用 Rio-scatter 生成 一 个 散 
点 图 ( 见 图 9-5、 图 9-6 和 图 9-7) : 


$ parallel -j1 "paste -d, wine-both-xy.csv wine-both-cluster-{}.csv | "V 
» "Rio-scatter x y cluster | display" ::: em simplekmeans cobweb 


e e. . . . 
um 
E 
W 


图 9-5. 用 EM 算法 对 酒 品 数据 聚 类 
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图 9-7: 用 Cobweb 算法 对 酒 品 数据 聚 类 


不 可 否认 ， 我 们 做 了 好 多 改进 Weka 的 事情 。 这 些 练习 是 值得 的 ， 因 为 也 许 某 一 天 你 会 运行 
一 个 与 你 的 预期 不 相符 的 命令 行 工具 。 现 在 你 了 解 到 ， 总 有 办 法 来 各 驭 这 些 命 令 行 工具 的 。 
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9.5 通过 SciKit-Learn Laboratory 进 行 回归 


在 本 节 里 ， 我 们 将 会 基于 酒 的 物理 化 学 性 质 来 预测 白酒 的 品质 。 由 于 品质 值 是 一 个 0 到 10 
的 数字 ， 我 们 可 以 把 预测 品质 当 作 一 个 回归 任务 。 总 的 来 说 ， 我 们 使 用 训练 数据 用 3 个 不 
同 的 算法 训练 了 3 个 回归 模型 。 


我 们 将 使 用 SciKit-Learn Laboratory (或 者 SKLL) 程序 包 。 如 果 你 没有 使 用 数据 科学 工具 
箱 ， 可 以 用 pip 安装 SKLL: 


$ pip install skll 
如 果 你 正和 运行 Python 2.7， 还 需要 安装 如 下 程序 包 


$ pip install configparser futures logutils 


9.5.1 准备 数据 

SKLL 预期 训练 数据 和 测试 数据 共有 相同 的 文件 名 ， 并 放 在 独立 的 目录 下 。 然 而 ， 在 这 个 
例子 里 ， 我 们 会 使 用 交 又 验证 ， 这 意味 着 我 们 只 需要 指定 一 个 训练 集 。 交 又 验证 是 一 个 将 
整个 数据 集 切 分 成 一 定数 目 子 集 的 技术 。 这 些 子 集 叫 作 折 。( 通 常 使 用 5 或 10 折 ,) 


我 们 需要 对 每 行 添加 一 个 标识 符 ， 以 便 后 续 很 容易 标识 出 数据 点 (预测 值 和 原始 数据 集 的 
顺序 并 不 一 致 ) : 


$ mkdir train 
$ wine-white-clean.csv nl -s, -w1 -vO | sed '1s/0,/id,/' > train/features.csv 


9.5.2 ”运行 实验 
创建 一 个 叫 作 predict-quality.cfg 的 配置 文件 : 


[General] 
experiment name - Wine 
task = cross validate 


[Input] 

train location = train 

featuresets - [["features.csv"]] 

learners = ["LinearRegression","GradientBoostingRegressor", "RandomForestRegres 
sor"] 

label col = quality 


[Tuning] 

grid search - false 
feature scaling - both 
objective = r2 
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[Output] 

log = output 

results - output 
predictions - output 


我 们 用 run experiment 命令 行 工具 (Educational Testing Service, 2014) 运行 实验 : 


$ run experiment -l predict-quality.cfg 


-1 选项 指定 程序 以 本 地 模式 运行 。SKLL 还 提供 了 在 集群 中 运行 实验 的 可 能 性 。 实 验 运行 
的 时 间 取 决 于 所 选 算法 的 复杂 度 。 


9.5.3 ”解析 结果 
一 旦 所 有 算法 运行 结束 ， 运 行 结 果 可 以 在 目录 output 下 找到 : 


$ cd output 

$ ls -1 

Wine features.csv GradientBoostingRegressor.log 

Wine features.csv GradientBoostingRegressor.predictions 
Wine features.csv GradientBoostingRegressor.results 
Wine features.csv GradientBoostingRegressor.results.json 
Wine features.csv LinearRegression.log 

Wine features.csv LinearRegression.predictions 

Wine features.csv LinearRegression.results 

Wine features.csv LinearRegression.results.json 

Wine features.csv RandomForestRegressor.log 

Wine features.csv RandomForestRegressor.predictions 
Wine features.csv RandomForestRegressor.results 

Wine features.csv RandomForestRegressor.results.json 
Wine summary.tsv 


SKLL 为 每 个 学 习 器 都 生成 了 4 个 文件 : 1 个 是 日 志 ，2 个 包含 结果 ， 还 有 1 个 含有 预测 
ee cii Nu. 
在 这 里 )。 我 们 可 以 用 如 下 SQL 查询 抽取 出 相关 指标 : 


$ < wine summary.tsv csvsql --query "SELECT learner name, pearson FROM stdin "V 
» "WHERE fold - 'average' ORDER BY pearson DESC" | csvlook 


[ze eM | 
| learner name | pearson 

|- Mee — | 
| RandomForestRegressor | 0.741860521533 | 
| GradientBoostingRegressor | 0.661957860603 | 
| LinearRegression | 0.524144785555 | 
| Mee 2—— | 


在 这 里 有 关联 的 列 是 pearson， 它 表示 皮尔 森 排 序 相 关 性 。 这 个 值 在 -1 到 1 之 间 ， 它 的 
含义 是 真实 排序 (品质 分 数 ) 和 预测 排序 之 间 的 相关 性 。 让 我 们 把 预测 值 放 回 到 数据 
集 里 : 


$ parallel "csvjoin -c id train/features.csv <>< output/wine_features.csv_{}"\ 
> ".predictions | tr '\t' ',') | csvcut -c id,quality,prediction > {}" ::: \ 

» RandomForestRegressor GradientBoostingRegressor LinearRegression 

$ csvstack *Regres* -n learner --filenames » predictions.csv 


并 用 Rio 生成 一 幅 图 ( 见 图 9-8) : 


$ < predictions.csv Rio -ge 'g+geom_point(aes(quality, round(prediction), '\ 
'color-learner), position-"jitter", alpha=0.1) + facet wrap(- learner) + '\ 
'theme(aspect.ratio-1) + xlim(3,9) + ylim(3,9) + guides(colour=FALSE) + '\ 
'geom smooth(aes(quality, prediction), method-"lm", color="black") + '\ 
'ylab("prediction")' | display 


vvv v 


GradientBoostingRegressor LinearRegression RandomForestRegressor 


图 9-8: 比较 三 个 回归 算法 的 输出 


9.6 ”用 BigML 分 类 


在 第 四 个 也 是 最 后 一 个 建 模 小 节 中 ， 我 们 将 对 酒 是 红 的 还 是 白 的 进行 分 类 。 对 此 ， 我 们 会 
采用 一 个 解决 方案 ， 叫 作 BigML， 它 提供 了 一 个 预测 API。 这 就 是 说 实际 的 建 模 和 预测 都 
在 云 上 进行 。 如 果 你 需要 比 你 的 电脑 更 强大 一 些 的 运算 能 力 ， 这 是 很 有 用 处 的 。 


尽管 预测 API 相对 来 说 还 比较 新 ， 但 它们 正在 变 得 越 来 越 普及 ， 这 也 是 我 们 在 本 章 里 
引入 其 中 之 一 的 原因 。 其 他 的 预测 API 有 谷歌 预测 API (https://developers.google.com/ 
prediction) 和 PredictionIO (http://prediction.io/), BigML 的 一 个 优点 在 于 ， 它 提供 了 一 个 
方便 的 命令 行 工具 bigmler (BigML，2014)， 可 以 与 API 接口 。 我 们 像 使 用 本 书 中 其 他 工 
具 一 样 使 用 这 个 命令 行 工具 ， 只 不 过 在 后 台 我 们 的 数据 会 发 送 到 BigML 服务 器 ， 进 行 分 
类 ， 然 后 把 结果 发 送 回来 。 


9.6.1 生成 均衡 的 训练 和 测试 数据 集 
首先 ， 我 们 生成 一 个 平衡 的 数据 集 ， 保 证 两 个 类 被 同等 对 待 。 为 此 ， 我 们 使 用 csvstack 
(Groskop, 2014), shuf (Eggert, 2012), head 和 csvcut: 


csvstack -n type -g red,white wine-red-clean.csv V 

«(« wine-white-clean.csv body shuf | head -n 1600) | 

csvcut -c fixed acidity,volatile acidity,citric acid,V 

residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,V 
density,ph,sulphates,alcohol,type » wine-balanced.csv 


o0 


V VV V Vr 


这 个 长 长 的 命令 分 解 如 下 : 


@ csvstack 用 于 融合 多 个 数据 集 。 它 生成 了 一 个 新 列 type， 对 于 来 自 第 一 个 文件 wine- 
red-clean.csv 的 行 ， 它 的 值 是 “red”， 对 于 来 自 第 二 个 文件 的 行 ， 它 的 值 是 “white”。 

@ 通过 文件 重 定 向 将 第 二 个 文件 传递 给 csvstack。 这 让 我 们 可 以 用 shuf 创建 一 个 临时 文 
件 ， 它 会 对 wine-white-clean.csv 的 数据 生成 一 个 随机 排列 ， 并 用 head 只 选择 文件 头 和 
前 1559 行 。 

e 最 后 ， 我 们 将 数据 集 的 列 用 csvcut 记录 下 来 ， 因 为 bigner 默认 假设 最 后 一 列 是 标签 。 

我 们 使 用 parallel 和 grep 计算 每 个 类 的 样本 个 数 ， 验 证 一 下 wine-valanced.csv 是 否 真 的 均衡 了 : 


$ parallel --tag grep -c () wine-balanced.csv ::: red white 
red 1599 
white 1599 


如 你 所 看 到 的 那样 ， 数 据 集 wine-balanced.csv 包含 有 1599 个 红酒 和 1599 个 白酒 样本 。 下 
下 我 们 用 split (Granlund & Stallman, 2012) 把 数据 集 切 分 成 训练 集 和 测试 集 .: 


$ < wine-balanced.csv header» wine-header.csv o 
$ tail -n +2 wine-balanced.csv | shuf | split -d -n r/2 e 
$ parallel --xapply "cat wine-header.csv x0{1} > wine-{2}.csv" \ © 
>it: 0 1 ::: train test 


这 是 另 一 个 值得 分 解 的 长 命令 : 


© H header 获取 文件 头 ， 并 保存 在 一 个 叫 作 wine-header.csv 的 临时 文件 里 。 

@ 用 tail 和 shuf 把 红酒 和 白酒 样本 混合 ， 然 后 采用 round-robin 分 布 把 它 切 分 到 两 个 文件 
里 ， 名 为 x00 和 x01。 

© 用 cat 把 保存 在 wine-header.csv 中 的 文件 头 和 存储 在 x00 里 的 行 融 合 在 一 起 ， 然 后 保存 
为 wine-train.csv， 对 x01 和 wime-test.csv 也 类 似 。--xapply 选项 告诉 parallel 在 两 个 
输入 源 中 串 行 循环 。 


tr 


再 次 验证 一 下 wine-train.csv 和 wine-test.csv 中 每 个 类 别 的 样本 数目 : 


$ parallel --tag grep -c {2} wine-{1}.csv ::: train test ::: red white 
train red 821 
train white 778 
test white 821 
test red 778 


我 们 的 数据 集 看 起 来 很 均衡 。 我 们 现在 准备 好 用 bigmler 调用 预测 API T. 
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9.6.2 ”调用 API 


你 可 以 在 BigML 开发 者 页 面 (https://bigml.com/developers) 获得 一 个 BigML 
用 户 名 和 API 密 钥 。 要 确保 给 ~/.bashre 中 的 变量 BIGML_USERNAME 和 BIGML_ 
API_KEY 设置 恰当 的 值 。 


API 调用 十 分 直接 ， 每 个 选项 的 含义 在 它 的 名 字 里 显而易见 : 


bigmler --train data/wine-train.csv \ 
--test data/wine-test-blind.csv \ 
--prediction-info full \ 
--prediction-header \ 

--output-dir output V 

--tag wine \ 

--remote 


V V V V V Vu 


文件 wine-test-blind.csv 就 是 把 wine-test.csv 中 的 type 列 (标签 ) 删 掉 。 这 个 调用 完成 之 
后 ， 在 output 目录 中 可 以 找到 结果 : 


$ tree output 

output 

HF batch prediction 
— bigmler sessions 
ļ— dataset 

[— dataset test 

[— models 

I— predictions.csv 
I— source 


L— source test 


0 directories, 8 files 


9.6.3 ”检查 结果 


最 感 兴趣 的 文件 是 output/predictions.csv : 


$ csvcut output/predictions.csv -c type | head 
type 
white 
white 
red 
red 
white 
red 
red 
white 
red 


我 们 可 以 拿 这 些 预测 标签 和 测试 集中 的 标签 进行 比较 。 我 们 统计 一 下 误 分 类 的 个 数 : 
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$ paste -d, «(csvcut -c type data/wine-test.csv) V [1] 
» «(csvcut -c type output/predictions.csv) | 

> awk -F, '( if ($1 != $2) {sum+=1 ) } END ( print sum }' e 
766 


© 把 data/wine-test.csv 和 output/prediction.csv 中 的 type 列 合并 到 一 起 。 
@ 用 awk 记录 两 列 值 不 同 的 次 数 。 


如 你 所 见 ，BigML API 在 1599 次 分 类 中 错 分 了 766 次 。 这 并 不 是 一 个 好 结果 ， 但 注意 ， 
我 们 只 是 无 目的 地 对 一 个 数据 集 应 用 了 一 个 算法 ， 正 常情 况 下 我 们 不 会 这 样 做 。 如 果 在 调 
整 特征 上 花费 更 多 时 间 ， 很 有 可 能 得 到 好 得 多 的 结果 。 


9.6.4 小结 
BigML 的 预测 API 被 证 明 非 常 好 用 。 和 本 书 中 讨论 的 众多 命令 行 工具 一 样 ， 我 们 仅仅 触及 
了 BigML 的 皮毛 。 你 还 应 该 注意 这 些 额 外 特性 ; 


BigML 命令 行 工 具 bignler 还 允许 本 地 计算 ， 这 对 调试 十 分 有 用 。 
结果 还 可 以 通过 BigML 的 Web 接口 查看 。 
BigML 还 可 以 执行 回归 任务 。 


对 于 BigML 特性 的 全 面 概述 ， 请 查看 开发 者 页 面 (https://bigml.com/developers)。 


尽管 我 们 只 使 用 了 一 个 预测 API 进行 实验 ， 但 我 们 相信 ， 一 般 说 来 进行 数据 科学 工作 时 预 
illl API 是 值得 考虑 的 。 
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在 这 最 后 一 章 ， 本 书 已 接近 尾声 。 我 们 首先 回顾 一 下 前 9 章 讨 论 过 的 内 容 ， 然 后 提出 三 条 
建议 ， 并 提供 一 些 资源 让 你 进一步 探索 我 们 触及 过 的 相关 话题 。 最 后 ， 如 末 你 有 任何 疑 
问 、 评 论 或 者 新 的 命令 行 工具 想 分 享 ， 我 们 提供 了 一 些 联系 方式 。 


10.1 让 我 们 回顾 一 下 


本 书 探 索 了 用 命令 行 完成 数据 科学 任务 的 能 力 。 一 个 很 有 趣 的 现象 是 ， 这 个 相对 革新 的 领 
域 所 提出 的 挑战 ， 可 以 用 这 样 一 个 经 过 时 间 考 验 的 技术 加 以 解决 。 我 们 希望 你 现在 已 经 看 
到 了 命令 行 的 能 力 。 各 种 命令 行 工 具 提 供 了 适用 于 数据 科学 各 种 任务 的 多 种 可 能 性 。 


数据 科学 有 很 多 定义 。 第 1 童 介绍 了 由 Mason 和 Wiggens 所 定义 的 OSEMN 模型 ， 这 是 因 
为 它 是 一 个 非常 实际 的 定义 ， 可 以 转化 到 非常 具体 的 任务 上 。 缩 写 OSEMN 代表 获取 、 清 
洗 、 探 索 、 建 模 和 解释 数据 。 第 1 章 还 解释 了 为 什么 命令 行 非常 适用 于 完成 数据 科学 任务 。 


第 2 章 解释 了 如 何 设置 你 自己 的 数据 科学 工具 箱 以 及 如 何 安装 与 本 书 相 关 的 包 。 第 2 章 还 
介绍 了 命令 行 的 必要 工具 和 概念 。 


AR OSEMN 模型 的 章节 一 一 第 3 章 (数据 获取 )、 第 5 章 (数据 清洗 )、 第 7 章 (数据 探 
R) 和 第 9 3€ (数据 建 模 ) 一 一 致力 于 用 命令 行 完 成 实际 的 任务 。 我 们 并 没有 用 单独 的 一 
章 来 介绍 第 5 步 ， 即 解释 数据 。 坦 白 说 ， 这 是 因为 计算 机 在 这 里 并 没什么 用 处 ， 更 别 说 命 
令 行 了 。 不 过 ， 我 们 提供 了 一 些 关 于 这 个 话题 的 阅读 资料 。 


在 罕 插 其 间 的 3 章 中 ， 我 们 介绍 了 一 些 关于 在 命令 行 中 进行 数据 科学 工作 的 更 宽泛 的 话 
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题 。 这 些 话 题 并 不 真正 对 应 某 个 具体 步骤 。 在 第 4 章 ， 我 们 解释 了 如 何 把 单行 命令 和 现 有 
代码 转换 成 可 重用 的 命令 行 工具 。 在 第 6 章 ， 我 们 描述 了 如 何 用 一 个 叫 作 Drake 的 命令 行 
工具 来 管理 数据 流 。 在 第 8 章 ， 我 们 演示 了 如 何 利用 GNU Parallel 让 一 般 的 命令 行 工具 和 
管道 并 行 执行 。 这 些 话题 可 以 应 用 在 数据 工作 流 中 的 任何 一 个 地 方 。 

我 们 不 太 可 能 把 所 有 可 用 并 且 与 数据 科学 相关 的 命令 行 工具 都 演示 出 来 。 每 天 都 会 有 新 的 
命令 行 工 具 出 现 。 正 如 你 到 现在 为 止 所 理解 的 那样 ， 本 书 更 注重 使 用 命令 行 的 思想 ， 而 不 
是 给 你 一 个 详尽 的 工具 列表 。 


10.2 三 条 建议 


你 可 能 已 经 在 阅读 这 些 章节 上 花费 了 不 少时 间 ， 或 许 还 一 同 实践 了 书 中 的 代码 示例 。 为 使 
你 的 付出 获得 最 大 的 回报 ， 并 提升 你 继续 在 数据 科学 工作 流 中 使 用 命令 行 的 可 能 性 ， 我 们 
想 给 你 提 3 条 建议 : 有 耐心 、 有 所 创新 和 肯 于 实践 。 在 下 面 3 个 小 节 中 我 们 会 详细 阐述 这 
3 条 建议 。 


10.2.1 有 耐心 
我 们 给 你 的 第 一 个 建议 是 耐心 。 在 命令 行 中 从 事 数 据 工 作 与 使 用 一 门 编程 语言 并 不 相同 ， 
因此 它 需 要 新 思维 。 


此 外 ,命令 行 工 具 本 身 并 不 是 没有 怪癖 和 不 一 至 性 。 部 分 原因 是 它们 是 由 很 多 不 同 的 人 开 
发 而 成 的 ， 并 且 历 经 了 儿 十 年 时 间 。 如 有 果 你 发 现 自己 迷失 在 它们 令 人 眼花 练 乱 的 选项 中 ， 
别 忘记 使 用 --hetp、man， 或 者 你 所 喜欢 的 搜索 引擎 来 学 习 更 多 相关 知识 。 


尽管 如 此 ， 这 仍然 是 一 个 令 人 钥 形 的 体验 ， 特 别 是 一 开始 的 时 候 。 相 信 我 们 ， 随 着 你 练习 
使 用 命令 行 及 其 工具 ， 你 将 会 变 得 更 加 精通 。 命 令 行 已 经 有 几 十 年 的 历史 ， 并 且 还 会 存在 
更 长 时 间 。 这 是 一 项 划算 的 投资 。 


10.2.2 ”有 所 创新 
第 二 个 相关 的 建议 是 创新 。 命 令 行 是 非常 灵活 的 。 结 合 命 令 行 工 具 ， 你 能 够 完成 超 平 你 想 
象 的 事情 。 


我 们 鼓励 你 不 要 立即 回 到 你 的 编程 语言 中 。 当 你 不 得 不 使 用 编程 语言 的 时 候 ， 想 一 想 代码 
是 否 可 以 以 某 种 方式 泛 化 或 者 重用 。 如 果 可 以 ， 考 虑 按照 第 4 章 讨论 的 步骤 ， 用 这 些 代码 
创建 你 自己 的 命令 行 工具 。 如 采 你 相信 你 的 命令 行 工具 能 让 其 他 人 受益 ， 可 以 更 进一步 ， 
让 代码 开源 。 
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第 三 条 建议 是 实践 。 实 践 与 创新 是 相关 的 ， 但 仍然 值得 单独 解释 一 下 。 在 前 一 小 节 中 ,我 
们 提 到 你 不 应 该 立即 回 到 编程 语言 中 。 当 然 ， 命 令 行 也 有 它 的 极限 。 在 本 书 中 ， 我 们 一 直 
强调 ， 命 令 行 应 该 被 当 作 数据 科学 的 一 个 伴生 方法 。 

我 们 已 经 讨论 过 在 命令 行 中 进行 数据 科学 工作 的 4 个 步骤 。 在 实践 中 ， 与 步骤 4 相 比 ， 命 
令 行 更 适用 于 步 又 1。 你 应 该 使 用 最 适合 你 的 任务 的 方法 。 在 工作 流 的 任何 地 方 混合 搭配 方 
法 都 是 完全 没有 问题 的 。 命 令 行 与 其 他 方法 、 编 程 语言 和 统计 环境 进行 整合 的 时 候 表 现 出 
色 。 每 种 方法 都 有 一 定 折衷 ， 而 要 想 变 得 精通 于 命令 行 ， 就 要 学 习 在 何 时 使 用 哪 种 方法 。 
综 上 所 述 ， 当 你 有 耐心 、 有 所 创新 并 且 肯 于 实践 的 时 候 ， 命 令 行 将 会 把 你 变 成 一 个 更 高 效 
和 高 产 的 数据 科学 家 。 


10.3 接 下 来 做 什么 


由 于 本 书 是 命令 行 和 数据 科学 的 交叉 ， 很 多 相关 话题 只 触及 了 皮毛 。 现 在 ， 是 否 进一步 探 
索 这 些 话 题 取决 于 你 。 下 面 几 个 小 节 提 供 了 话题 列表 和 可 供 咨 询 的 推荐 资源 。 


10.3.1 API 


* Russell, M. (2013). Mining the Social Web (2nd Ed.). O'Reilly Media. 
* Warden, P. (2011). Data Source Handbook. O'Reilly Media. 


10.3.2 shell 编程 


e Winterbottom, D. (2014). commandlinefu.com. Retrieved from http://www.commandlinefu.com. 

e Peek, J., Powers, S., O'Reilly, T., & Loukides, M. (2002). Unix Power Tools (3rd Ed.). O'Reilly 
Media. 

。 Goyvaerts, J., & Levithan, S. (2012). Regular Expressions Cookbook (2nd Ed.). O'Reilly Media. 

* Cooper, M. (2014). “Advanced Bash-Scripting Guide." Retrieved May 10, 2014, from http:// 
www.tldp.org/LDP/abs/html. 

e Robbins, A., & Beebe, N. H. F. (2005). Classic Shell Scripting. O'Reilly Media. 


10.3.3 Python, R#HISQL 


。 Wickham, H. (2009). geplot2: Elegant Graphics for Data Analysis. Springer. 

e McKinney, W. (2012). Python for Data Analysis. O'Reilly Media. 

。 Rossant, C. (2013). Learning IPython for Interactive Computing and Data Visualization. Packt 
Publishing. 


10.3.4 数据 解释 


。 Shron, M. (2014). Thinking with Data. O'Reilly Media. 
e Patil, D. J. (2012). “Data Jujitsu” . O'Reilly Media. 


10.4 联系 方式 

如 果 没 有 很 多 创造 命令 行 及 大 量 命令 行 工 具 的 人 ， 本 书 就 不 会 写成 。 可 以 说 ， 现 在 的 数据 
科学 命令 行 工具 生态 系统 是 社区 努力 的 结果 。 我 们 只 是 略微 介绍 了 一 下 很 多 命令 行 工 具 。 
每 天 都 会 有 新 工具 问世 ， 或 许 某 一 天 你 自己 也 会 构建 一 个 。 那 时 ， 我 们 希望 收 到 你 的 消 
息 。 当 你 有 疑问 、 评 论 或 建议 的 时 候 ， 请 给 我 们 写 封 短信 ， 我 们 也 会 非常 感激 。 有 如 下 方 
法 可 以 联系 到 我 们 。 


* Email: jeroen@jeroenjanssens.com 
* Twitter: @jeroenhjanssens 


。 本 书 网 站 : http://datascienceatthecommandline.com/ 


* GitHub: https://github.com/jeroenjanssens/data-science-at-the-command-line 


附录 人 


本 附录 将 概述 本 
及 Bash 内 置 命令 和 关键 字 。 对 于 每 个 命令 行 工具 ， 我 们 提供 
在 并 且 合 适 的 话 。 


命令 行 工具 列表 


中 讨论 过 的 所 有 命令 行 工具 ， 包 括 二 进 制 可 执行 文件 、 解 释 型 脚本 ， 以 


。 在 命令 行 中 实际 敲 入 的 命令 


。 描述 


。 所 属 软件 包 的 名 字 


e {EAS 


Erf rH ES hi AS 


。 该 版 本 发 布 的 年 份 

。 主要 作者 

。 可 获得 更 多 信息 的 网 站 
。 如 何 安装 

。 如 何 获得 帮助 

。 一 个 使 用 例子 


这 里 所 列 出 的 所 有 命令 行 工具 都 包含 在 为 本 书 而 做 的 数据 科学 工具 箱 中 。 如 何 安装 和 使 用 


它们 ， 详 见 第 2 章 。 


以 下 信息 ， 如 果 这 些 信息 存 


安装 命令 假设 你 所 运行 的 系统 是 Ubuntu 14.04。 请 广 意 ， 引 用 开源 软 


件 并 不 是 很 简单 的 事情 ， 一 些 信息 可 能 已 经 丢失 了 或 者 是 不 正确 的 。 


alias 


定义 或 显示 别名 。alias 是 一 个 Bash 内 置 命令 。 
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$ help alias 
$ alias ll-'ls -alF' 


awk 


模式 扫描 和 文本 处 理 语言 。mawk (1.3.3 版 本 ) JRA Mike Brennan (1994), http://invisible- 


island.net/mawk, 


$ sudo apt-get install mawk 

$ man awk 

$ seq 5 | awk '{sum+=$1} END {print sum]' 
15 


aws 


在 命令 行 中 管理 AWS 服务 ， 例 如 EC2 和 S3, AWS 命令 行 接口 (1.3224 版 本 ) MALS 
x Web 服务 (2014) http://aws.amazon.com/cli, 


$ sudo pip install awscli 
$ aws help 
$ aws ec2 describe-regions | head -n 5 


{ 
"Regions": [ 
{ 
"Endpoint": "ec2.eu-west-1.amazonaws.com", 
"RegionName": "eu-west-1" 


Bash 


GNU Bourne-Again SHell. Bash (4.3 版本) JRA Brian Fox 和 Chet Ramey (2010), http:// 


www.gnu.org/software/bash, 


$ sudo apt-get install bash 
$ man bash 


bc 


估算 标准 输入 中 的 公式 。bc (1.06.95 版 本 ) 源 自 Philip A. Nelson (2006), http://www.gnu. 


org/software/bc 。 


$ sudo apt-get install bc 
$ man bc 

$ echo 'e(1)' | bc -l 
2.71828182845904523536 
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bigmler 


访问 BigML 预测 API, bigmler (1.12.2 版 本 ) W A BigML 项 目 (2014), http://bigmler. 


readthedocs.org. 


$ sudo pip install bigmler 
$ bigmler --help 


body 


在 除 第 一 行 以 外 的 所 有 行 中 应 用 一 个 表达 式 。 如 果 你 想 在 包含 文件 头 的 CSV 文件 中 应 用 
经 典 命令 行 工具 ， 那 这 个 命令 是 有 用 处 的 。body 源 自 Jeroen H.M. Janssens (2014)。https:// 


github.com/jeroenjanssens/data-science-at-the-command-line。 


$ git clone https://github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ echo -e "value\n7\n2\n5\n3" | body sort -n 

value 

2 


NUW 


cat 


连结 文件 和 标准 输入 ， 并 打印 到 标准 输出 中 。cat (8.21 版 本 ) 源 自 Torbjorn Granlund 和 
Richard M. Stallman (2012), http://www.gnu.org/software/coreutils, 


$ sudo apt-get install coreutils 
$ man cat 
$ cat results-01 results-02 results-03 » results-all 


cd 

改变 shell 工作 目录 。cd 是 一 个 Bash 内 置 命令 。 
$ help cd 
$ cd ~; pwd; cd ..; pwd 


/home/vagrant 
/home 


chmod 


改变 文件 模式 二 进 制 位 。 我 们 用 它 来 让 命令 行 工具 可 以 执行 。chnod (821 版 本 ) IRA 
David MacKenzie 和 Jim Meyering (2012), http://www.gnu.org/software/coreutils , 
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$ sudo apt-get install coreutils 
$ man chmod 
$ chmod u+x experiment.sh 


cols 
在 数据 列 的 子 集中 应 用 一 个 命令 ， 并 把 结果 合并 到 剩余 的 列 中 。cots ii A Jeroen H.M. 


Janssens (2014), https://github.com/jeroenjanssens/data-science-at-the-command-line, 


§ git clone https://github.com/jeroenjanssens/data-science-at-the-commandline.git 
§ < iris.csv cols -c species body tapkee --method pca | header -r x,y,species 


COWSay 


生成 一 幅 牛 的 ASCH EVRA AIA. 2A TIRE M I BERI 38 JE-JT BE TH. TE IT 
时 候 ， 这 很 有 用 。cowsay (3.034dfsgl 版 本 ) JA Tony Monroe (1999), 


$ sudo apt-get install cowsay 
$ man cowsay 
$ echo 'The command line is awesome! ' cowsay 


\ NN 
\ (oo)\__ 
C. VAS 


IEEE 


Cp 


复制 文件 和 目录 。cp (8.21 版 本 ) UR EI Torbjorn Granlund, David MacKenzie fil Jim Meyering 
(2012), http://www.gnu.org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man cp 


csvcut 


从 CSV 数据 中 抽取 列 。 和 命令 行 工具 cut 一 样 ， 但 用 于 表格 数据 。Csvkit (0.8.0 版 本 ) 源 
É Christopher Groskopf (2014), 。http:/csvkitreadthedocs.org。 


$ sudo pip install csvkit 
$ csvcut --help 
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Csvgrep 


过 滤 表 格 数据 ， 使 数据 只 剩 下 包含 给 定 值 或 者 匹配 一 个 正则 表达 式 的 某 些 列 。Csvkit 
(0.8.0 版 本 ) W É Christopher Groskopf (2014), 。http:Wcsvkitreadthedocs.org。 


$ sudo pip install csvkit 
$ csvgrep --help 


CSV join 


用 一 个 与 SQL JOIN 操作 类 似 的 方法 ， 将 两 个 或 者 更 多 CSV 表格 合并 到 一 起 。Csvkit 
(0.8.0 版 本 ) W É Christopher Groskopf (2014), 。http:Wcsvkitreadthedocs.org。 


$ sudo pip install csvkit 
$ csvjoin --help 


csvlook 


在 命令 行 中 以 可 读 且 宽度 固定 的 格式 展示 一 个 CSV 文件 。Csvkit (0.8.0 版 本 ) 源 自 
Christopher Groskopf (2014), http://csvkit.readthedocs.org. 


$ sudo pip install csvkit 
$ csvlook --help 
$ echo -e "a,b\n1,2\n3,4" | csvlook 


csvsort 


对 CSV 文件 排序 。 和 命令 行 工具 sort 一 样 ， 但 用 于 表格 数据 。Csvkit (0.8.0 版 本 ) 源 自 
Christopher Groskopf (2014), http://csvkit.readthedocs.org. 


$ sudo pip install csvkit 
$ csvsort --help 


csvsql 


直接 在 CSV 数据 上 执行 SQL 查询 ， 或 者 将 CSV 插入 到 数据 库 中 。Csvkit (0.8.0 版本) 由 
Christopher Groskopf (2014) 创作 。http://csvkit.readthedocs.org。 


$ sudo pip install csvkit 
$ csvsql --help 


csvstack 


把 多 个 CSV 文件 中 的 行 堆 在 一 起 ， 可 以 有 选择 地 对 每 一 行 增加 一 个 分 组 值 。Csvkit (0.8.0 
版 本 ) 源 自 Christopher Groskopf (2014)。http://csvkit.readthedocs.org。 


$ sudo pip install csvkit 
$ csvstack --help 


csvstat 


打印 一 个 CSV 文件 中 所 有 列 的 描述 性 统计 信息 。Csvkit (0.8.0 版 本 ) 源 自 Christopher 
Groskopf (2014), http://csvkit.readthedocs.org。 


$ sudo pip install csvkit 
$ csvstat --help 


curl 


从 一 个 URL 下 载 数据 。cURL (7.35.0 版 本 ) 源 自 Daniel Stenberg (2012), http://curl.haxx.se. 


$ sudo apt-get install curl 
$ man curl 


curlicue 


A curl 进行 OAuth 协议 握手 操作 。curlicue 源 自 Decklin Foster (2014), https://github. 


com/decklin/curlicue, 


§ git clone https://github.com/decklin/curlicue.git 


cut 


从 文件 的 每 一 行 中 删 去 一 块 内 容 。cut (8.21 版 本 ) JE David M. Ihnat, David MacKenzie 
和 Jim Meyering (2012), http://www.gnu.org/software/coreutils , 


$ sudo apt-get install coreutils 
$ man cut 
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display 


在 任何 一 台 X 服 务 器 上 展示 一 个 图 片 或 图 片 序列 。 可 以 从 标准 输入 中 读 取 
display (8:6.7.7.10 版本) 源 自 ImageMagick Studio LLC (2009)。 


| 


片 数 据 。 


$ sudo apt-get install imagemagick 
$ man display 


Drake 
管理 一 个 数据 流 。Drake (0.1.6 版 本 ) 源 自 Factual (2014)。 https://github.com/Factual/drake , 


$ # Please see Chapter 6 for installation instructions. 
$ drake --help 


dseq 


生成 一 个 相对 于 今天 的 日 期 序列 。dseq 源 自 Jeroen H.M. Janssens (2014), https://github. 


com/jeroenjanssens/data-science-at-the-command-line, 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ dseq -2 0 # day before yesterday till today 

2014-07-15 

2014-07-16 

2014-07-17 


echo 


显示 一 行文 本 。echo (8.2.1 版 本 ) JRA Brian Fox 和 Chet Ramey (2012), http://Awww.gnu. 


org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man echo 


env 


在 一 个 修改 过 的 环境 中 运行 程序 。 通 常用 于 指定 应 该 由 哪个 解释 器 运行 我 们 的 脚本 。 
env (8.21 hk Æ) 源 自 Richard Mlynarik 和 David MacKenzie (2012), http://www.gnu.org/ 


software/coreutils。 


$ sudo apt-get install coreutils 
$ man env 
$ #!/usr/bin/env python 
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export 


为 shell 变量 设置 export 属性 。 要 让 shell 变量 对 其 他 命令 行 工 具 可 用 ， 这 上 比较 有 用 。 
export 是 一 个 Bash 内 置 命令 。 


$ help export 
$ export WEKAPATH-SHOME/bin 


feedgnuplot 


在 把 数据 传递 到 标准 输入 的 时 候 ， 为 gnuplot 生成 给 一 个 脚本 。feedgnuplot (1.32 版 本 ) 
源 自 Dima Kogan (2014)。http://search.cpan.org/perldoc?feedgnuplot. 


$ sudo apt-get install feedgnuplot 
$ man feedgnuplot 


fieldsplit 


根据 某 个 字段 值 将 文件 分 为 多 个 文件 。fieldsplit (2010-01 版本) 源 自 Jeremy Hinds, 
Jason Gessner, Jim Renwick, Norman Gocke, Rodofo Granata 和 Tobias Wolff (2010), 


http://code.google.com/p/crush-tools 。 


$ # See website for installation instructions 
$ fieldsplit --help 


find 


在 文件 层次 结构 中 寻找 文件 。find (4.4.2 版 本 ) 源 自 James Youngman (2008), http://www. 


gnu.org/software/findutils 。 


$ sudo apt-get install findutils 
$ man find 


for 


对 列表 中 的 每 个 元 素 执行 命令 。 在 第 8 章 里 ， 我 们 讨论 了 用 parallel 代替 for 的 优势 。 
for 是 一 个 Bash 关键 字 。 


$ help for 
$ for i in {A..C} "It's easy as" {1..3}; do echo $i; done 


A 
B 
C 
I 


t's easy as 
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git 
管理 Git 库 ， 这 是 一 个 分 布 式 控制 系统 。git (1:1.9.1 版 本 ) UR EI Linus Torvalds 和 Junio C. 
Hamano (2014), http://git-scm.com, 


$ sudo apt-get install git 
$ man git 


grep 


打印 匹配 某 个 模式 的 行 。grep (2.16 版 本 ) 源 自 Jim Meyering (2012), http:// www.gnu. 


org/software/grep。 


$ sudo apt-get install grep 
$ man grep 


head 


输出 文件 的 前 几 行 。head (8.2.1 版 本 ) 源 自 David MacKenzie fll Jim Meyering (2012), 


http://www.gnu.org/software/coreutils , 


$ sudo apt-get install coreutils 
$ man head 

$ seq 5 | head -n 3 

1 

2 

3 


header 


添加 、 替 换 和 删除 文件 头 的 行 。header 源 自 Jeroen H.M. Janssens (2014), https://github. 


com/jeroenjanssens/data-science-at-the-command-line, 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ header -h 


in2csv 


将 常见 但 不 太 好 的 表格 数据 格式 转化 为 CSV。Csvkit (0.8.0 版 本 ) 源 自 Christopher 
Groskopf (2014), http://csvkit.readthedocs.org. 
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$ sudo pip install csvkit 
$ in2csv --help 


jq 


处 理 JSON。jq (jq-1.4 版 本 ) JRA Stephen Dolan (2014), http://stedolan.github.com/jq. 


$ # See website for installation instructions 
$ # See website for documentation 


json2csv 


将 ISON 转换 为 CSV。json2csv (1.1 KAS) AA Jehiah Czebotar (2014), https://github. 
com/jehiah/json2csv 。 


$ go get github.com/jehiah/json2csv 
$ json2csv --help 


less 


对 大 文件 标 页 Be. less (458 hk 本 ) W Ñ Mark Nudelman (2013), http://www. 


greenwoodsoftware.com/less , 


$ sudo apt-get install less 
$ man less 
$ csvlook iris.csv | less 


ls 


列 出 目录 内 容 。ls (版 本 8.2.1) W A Richard M. Stallman fil David MacKenzie (2012), 


http://www.gnu.org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man ls 


man 


阅读 命令 行 工具 的 参考 手册 。man (2.6.7.1 版 本 ) 源 自 John W. Eaton ffl Colin Watson (2014), 


$ sudo apt-get install man 
$ man man 
$ man grep 
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mkdir 


创建 目录 。mkdir (8.21 版 本 ) PRA David MacKenzie (2012), http://www.gnu.org/software/ 


coreutils, 


$ sudo apt-get install coreutils 
$ man mkdir 


mv 


移动 或 重 命名 文件 或 目录 。mv (8.21 版 本 ) JRA Mike Parker, David MacKenzie 和 Jim 
Meyering (2012)。http:Wwww.gnu.org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man mv 


parallel 


从 标准 输入 中 并 行 构建 和 执行 shell fit. GNU parallel (20140622 版 本 ) JA Ole Tange 
(2014), http://www.gnu.org/software/parallel, 


$ # See website for installation instructions 
$ man parallel 

$ seq 3 | parallel echo Processing file {}.csv 
Processing file 1.csv 

Processing file 2.csv 

Processing file 3.csv 


paste 


A Jt X (E BS fT, paste (8.21 版 本 ) YR A David M. Ihnat #1 David MacKenzie (2012), 


http://www.gnu.org/software/coreutils , 


$ sudo apt-get install coreutils 
$ man paste 


pbc 
用 parallel 运行 bc。 输 入 CSV 的 第 一 列 映射 到 {1}， 第 二 列 映 射 到 {2}， 以 此 类 推 。pbc 源 自 


Jeroen H.M. Janssens (2014), https://github.com/jeroenjanssens/data-science-at-the-command-line, 


$ git clone https://github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ seq 5 | pbc '(1)^2' 
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NrPO DR 
ua 


ptp 

安装 和 管理 Python 程序 包 。pip (1.5.4 版 本 ) 源 自 PyPA (2014). https://pip.pypa.io. 
$ sudo apt-get install python-pip 
$ man pip 

pwd 


打印 当前 的 工作 目录 名 。pwd (8.21 版 本 ) 是 一 个 Bash 内 置 程序 ， 源 自 Jim Meyering 
(2012), http://www.gnu.org/software/coreutils。 


$ man pwd 
$ pwd 


/home/vagrant 
Python 


执行 Python， 它 是 一 个 解释 型 、 交 互 式 的、 面向 对 象 编程 语言 。Python (2.7.5 版 本 ) WA 
Python Software Foundation (2014), http:/www.python.org。 


$ sudo apt-get install python 
$ man python 


H 


H R 编程 语言 分 析 数 据 和 生成 可 视 化 。 要 在 Ubuntu 上 安装 最 新 版 本 的 R， 请 遵照 
http://bit.ly/ubuntu_packages_for_R 上 的 操作 指南 。R (3.1.1 版 本 ) W R Foundation for 
Statistical Computing (2014), http://www.r-project.org. 


$ sudo apt-get install r-base-dev 
$ man R 


Rio 
把 CSV 从 标准 输入 中 读 到 R 里 作为 一 个 data.frame， 运 行 给 定 命令 ， 并 获得 CSV 或 者 
PNG 输 tH, Rio 源 Bj Jeroen H.M. Janssens (2014)。https://github.com/jeroenjanssens/data- 
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science-at-the-command-line , 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 


$ Rio -h 

$ seq 10 | Rio -nf sum 

55 
Rio-scatter 


用 Rio 从 CSV 中 生成 一 个 散 点 图 。Rio-scatter J Jeroen H.M. Janssens (2014), https:// 


github.com/jeroenjanssens/data-science-at-the-command-line , 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ « iris.csv Rio-scatter sepal length sepal width species » iris.png 


rm 


删除 文件 或 目录 。rm (8.21 版 本 ) A Paul Rubin, David MacKenzie, Richard M. Stallman 
和 Jim Meyering (2012), http://www.gnu.org/software/coreutils , 


$ sudo apt-get install coreutils 
$ man rm 


run experiment 


JH Python 程序 包 scikit-learn 运行 机 器 学 习 实 验 。SciKit-Learn Laboratory (0.26.0 版 本 ) 源 
Ej Educational Testing Service (2014), https://skll.readthedocs.org. 


$ sudo pip install skll 
$ run experiment --help 


sample 


给 定 持续 时 间 7 段 和 行 间 延迟 ， 以 一 定 概率 打印 标准 输出 行 。sample 源 A Jeroen H.M. 


Janssens (2014), https://github.com/jeroenjanssens/data-science-at-the-command-line。 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ sample --help 


SCp 


安全 地 复制 远程 文件 。scp (1:6.6p1 版 本 ) JRA Timo Rinne 和 Tatu Ylonen (2014), http:// 


www.openssh.com, 
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$ sudo apt-get install openssh-client 
$ man scp 


scrape 


用 一 个 XPath 查询 或 者 CSS3 选择 器 抽取 HTML 7638, scrape ji A Jeroen H.M. Janssens 


(2014). https://github.com/jeroenjanssens/data-science-at-thecommand-line. 


§ git clone https://github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ curl -sL 'http://datasciencetoolbox.org' | scrape -e 'head > title' 
<title>Date Science Toolbox</title> 


sed 


过 滤 和 转换 文本 。sed (4.2.2 版 本 ) WM A Jay Fenlason, Tom Lord, Ken Pizzini 和 Paolo 
Bonzini (2012), http://www.gnu.org/software/sed, 


$ sudo apt-get install sed 
$ man sed 


seq 


打印 一 个 数字 序列 。seq (8.21 版 本 ) W A Ulrich Drepper (2012), http://www.gnu.org/ 


Software/coreutils 。 


$ sudo apt-get install coreutils 
$ man seq 
$ seq 5 


mm 上 UP 请 


shuf 


生成 随机 排列 。shuf (8.21 版 本 ) 源 自 Paul Eggert (2012), http://www.gnu.org/software/ 


coreutils, 


$ sudo apt-get install coreutils 
$ man shuf 
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sort 


对 文本 文件 的 行 排序 。sort (8.21 版 本 ) 源 自 Mike Haertel 和 Paul Eggert (2012), http:// 


Www.gnu.org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man sort 


split 


把 一 个 文件 切 分 成 若干 片 。spLit (8.21 AS) YR A Torbjorn Granlund 和 Richard M. 
Stallman (2012), http://www.gnu.org/software/coreutils. 


$ sudo apt-get install coreutils 
$ man split 


sql2csv 


对 SQL 数据 库 执行 任意 命令 ， 并 把 结果 按照 CSV 格式 输出 。Csvkit (0.8.0 版 本 ) 源 自 
Christopher Groskopf (2014), http://csvkit.readthedocs.org. 


$ sudo pip install csvkit 
$ sql2csv --help 


ssh 


登录 远程 主机 。OpenSSH 客户 端 (1.8.9 版 本 ) D A Tatu Ylonen, Aaron Campbell, Bob 
Beck, Markus Friedl, Niels Provos, Theo de Raadt, Dug Song 和 Markus Friedl (2014), 


http://www.openssh.com, 


$ sudo apt-get install ssh 
$ man ssh 


sudo 


以 另 一 个 用 户 的 身份 执行 命令 。sudo (1.8.9p5 版 本 ) RA Todd C. Miller (2013), http:// 


www.sudo.ws/sudo, 


$ sudo apt-get install sudo 
$ man sudo 
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tail 


输出 文件 的 最 后 几 行 。tail (8.21 版 本 ) 源 自 Paul Rubin, David MacKenzie, Ian Lance 
Taylor 和 Jim Meyering (2012), http://www.gnu.org/software/coreutils 。 

$ sudo apt-get install coreutils 

$ man tail 

$ seq 5 | tail -n 3 


3 
4 
5 


Tapkee 


用 各 种 算法 对 数据 集 降 维 。Tapkee 源 自 Sergey Lisitsy 和 Fernando Iglesias (2014), http:// 


tapkee.lisitsyn.me, 


$ # See website for installation instructions 
$ tapkee --help 
$ « iris.csv cols -c species body tapkee --method pca | header -r x,y,species 


tar 


生成 、 列 举 和 提取 TAR X. tar (1.27.1 版 本 ) 源 自 Jeff Bailey, Paul Eggert 和 Sergey 
Poznyakoff (2014)。http:Wwww.gnu.org/software/tar。 


$ sudo apt-get install tar 
$ man tar 


tee 


从 标准 输入 中 读 取 ， 并 写 入 标准 输出 和 文件 。tee (8.21 版 本 ) WA Mike Parker, Richard 
M. Stallman 和 David MacKenzie (2012), http://www.gnu.org/software/coreutils 。 


$ sudo apt-get install coreutils 
$ man tee 


tr 


翻译 或 删除 字符 。tr (8.21 版 本 ) 源 自 Jim Meyering (2012), http://www.gnu.org/software/ 


coreutils, 


$ sudo apt-get install coreutils 
$ man tr 
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tree 
以 树 状 格式 列 出 目录 内 容 。tree (version 1.6.0 版 本 ) 源 自 Steve Baker (2014), https:// 


launchpad.net/ubuntu/+source/tree, 


$ sudo apt-get install tree 
$ man tree 


type 

显示 命令 行 工具 的 类 型 。type 是 一 个 Bash 内 置 命令 。 
$ help type 
$ type cd 
cd is a shell builtin 

uniq 


报告 或 忽略 重复 行 。uniq (8.21 版本) 源 自 Richard M. Stallman fll David MacKenzie 
(2012), http://www.gnu.org/software/coreutils o 


$ sudo apt-get install coreutils 
$ man uniq 


unpack 


提取 常用 文件 格式 。unpack 源 自 Patrick Brisbin (2013), https://github.com/jeroenjanssens/ 


data-science-at-the-command-line, 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-commandline.git 
$ unpack file.tgz 


unrar 


从 RAR 文档 中 提取 文件 。unrar (1:0.0.1+cvs20071127 版 本 ) JHA Ben Asselstine, Christian 
Scheurer 和 Johannes Winkelmann (2014), http://home.gna.org/unrar, 


$ sudo apt-get install unrar-free 
$ man unrar 


unzip 


T 


在 一 个 ZP 文档 中 列 出 、 测 试 和 提取 压缩 文件 。unzip (60 版 本 ) 源 自 Samuel H. Smith (2009), 
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$ sudo apt-get install unzip 
$ man unzip 


WC 


对 每 个 文件 打印 空 行 、 单 词 和 字 市 个 数 。wc (8.21 版本) JR A Paul Rubin #11 David 
MacKenzie (2012), http://www.gnu.org/software/coreutils。 


$ sudo apt-get install coreutils 
$ man wc 

$ echo 'hello world' | wc -c 

12 


Weka 


Weka 是 一 个 处 理 数据 挖掘 任务 的 机 器 学 习 算 法 集合 ， 由 Mark Hall, Eibe Frank, Geoffrey 
Holmes, Bernhard Pfahringer, Peter Reutemann 和 Ian H. Witten 创作 。 这 个 命令 行 工 具 人 允许 
你 从 命令 行 运 行 Weka, Weka 命令 行 工具 源 自 Jeroen H.M. Janssens (2014), https://github. 


com/jeroenjanssens/data-science-at-the-command-line, 


$ git clone https: //github.com/jeroenjanssens/data-science-at-the-command-line.git 


which 


查找 一 个 命令 行 工具 的 位 置 。 对 Bash 内 置 命令 不 管用 。which 不 知 是 由 谁 做 的 〈2009 ) 。 


$ man which 
$ which man 
/usr/bin/man 


xml2json 


把 XML 44 fh 29 ISON, Xml2Json (0.0.2 版 本 ) ifi A Francois Parmentier (2014), https:// 
github.com/parmentf/xmD2json, 


$ npm install xml2json-command 
$ xml2json « input.xml» output.json 
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封面 介绍 

本 书 封面 上 的 动物 是 花冠 竹 番 犀 岛 (wreathed hornbill) ， 拉 丁 文 名 为 Rhytidoceros undulatus, 
这 一 物种 分 布 于 东南 亚 大 陆 、 印 度 东 北部 和 不 丹 的 森林 。 犀 鸟 得 名 于 它们 鸟 喉 上 部 形成 
的 盔 突 。 这 些 中 空 的 角质 结构 并 没有 显著 的 用 处 ， 但 可 以 作为 种 群 个 体 之 间 的 识别 手段 ， 
用 于 放大 叫 声 ， 或 者 用 于 性 别 的 识别 (A AA RA RK), WERE GK 
其 近亲 淡 喉 氏 盔 犀 乌 外观 非 常 相 似 ， 两 者 的 区 别 在 于 前 者 喉 品 的 较 低位 置 上 有 一 个 黑色 
横 带 。 

花冠 钙 盔 犀 乌 群 的 规模 可 达 400 只 ， 但 它们 是 “一 夫 一 妻 制 "”， 峻 雄 终生 相伴 。 肉 性 鸟 在 
雄性 鸟 的 帮助 下 用 辩 便 和 泥巴 封 住 树 洞 ， 在 里 面 产 蛋 和 和 铸 化 。 此 后 四 个 月 内 ， 雄 性 鸟 通过 
一 个 刚好 够 宽 的 缝隙 将 只 伸 进 树 洞 ， 喂 食 它 的 伴侣 和 稚 鸟 。 峻 性 鸟 和 稚 鸟 离开 昌 穴 之 后 ， 
它们 就 从 以 动物 猎物 为 食 转变 为 以 植物 果实 为 主食 。 犀 鸟 夫 妇 可 以 在 长 达 九 年 的 时 间 里 始 
终 使 用 同一 个 灶 穴 。 


O'Reilly 封面 中 的 许多 动物 都 处 于 濒临 灭绝 的 境地 。 它 们 对 于 我 们 这 个 世界 都 是 至 关 重 要 
的 。 如 果 你 想 更 多 地 了 解 怎样 帮助 它们 ， 请 浏览 http://animals.oreilly.com 网 站 。 


封面 图 片 来 自 于 铅 牙 利 雕 版 画 。 
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欢迎 加 入 


图 灵 社 区 iTuring.cn 


最 前 沿 的 IT 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹豫 入 得 的 时 候 ， 图 灵 社 区 已 经 采取 实 
际 行动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 开 类 出 版 商 ， 图 灵 社 区 目前 为 读者 
提供 两 种 DRM-free 的 阅读 体验 :在线 阅读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 具 有 许多 明显 的 优势 。 它 不 仪 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩 
色 图 片 ( 即使 有 的 书 纸 质 版 是 黑白 印刷 的 )。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 
稿 、 编 辑 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “人 敏捷 出 
版 ”， 它 可 以 让 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻 译 版 技术 书 
“出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 提前 消炎 
书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 的 质量 。 


优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 兑换 纸 质 样 书 。 


一 一 最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ” 
功能 ， 你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。 CK 
费 形式 须 经 过 图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 
社区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 人 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻译 哪 本 图 
书 ， 欢 迎 你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 
地 完成 一 本 书 的 翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


最 直接 的 读者 交流 平台 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 蔷 误 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 
辑 人 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 

你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 
声望 。 
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命令 行 中 的 数据 科学 


大 数据 时 代 ， 数 据 科 学 研究 与 分 析 日 益 重要 。 本 书 独树一帜， 
灵活 的 命令 行 工具 成 为 高 效 多 产 的 数据 科学 家 。 
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